mÉtodos estadÍsticos multivariados - … · reducción dimensional (similar al análisis de...
TRANSCRIPT
Dagoberto Salgado Horta Página 1
MÉTODOS ESTADÍSTICOS
MULTIVARIADOS
Elaboró: Dagoberto Salgado Horta
Dagoberto Salgado Horta Página 2
CONTENIDO
1. Coeficiente de Cronbach
2. Métodos de análisis multivariado
3. ANOVA de K direcciones
4. Análisis multivariado de Varianza (MANOVA)
5. Análisis de Covarianza
6. Análisis Discriminante
7. Análisis de Conglomerados (Clusters)
8. Análisis de componentes principales
9. Análisis Factorial
10. Análisis de Regresión Múltiple
11. Análisis de correspondencia
Dagoberto Salgado Horta Página 3
1. COEFICIENTE DE CRONBACH
Dagoberto Salgado Horta Página 4
1. CÁLCULO DEL COEFICIENTE DE CONFIABILIDAD
(FIABILIDAD) ALFA-CRONBACH
Existen tres procedimientos para determinar el coeficiente ―” o alfa :
1. Sobre la base de la varianza de los ítems, con la aplicación de la siguiente
Fórmula:
En donde N representa el número de ítems de la escala, ―s2 (Yi)‖ es igual a la
sumatoria de las varianzas de los ítems y ―s2x” equivale a la varianza de toda la
escala.
2. Sobre la base de la matriz de correlación de los ítems, el procedimiento
Sería:
a) Se aplica la escala.
b) Se obtienen los resultados.
c) Se calculan los coeficientes de correlación r de Pearson entre todos los
ítems (todos contra todos de par en par).
d) Se elabora la matriz de correlación con los coeficientes obtenidos. Por
Ejemplo:
Dagoberto Salgado Horta Página 5
Los coeficientes que se mencionan como ―ya fue calculado‖, se ubican en la
Parte superior de las líneas horizontales (guiones). Es decir, cada coeficiente
se incluye una sola vez y se excluyen los coeficientes que vinculan al ítem o
Puntuación consigo misma (1 con 1, 2 con 2, 3 con 3 y 4 con 4).
Dagoberto Salgado Horta Página 6
3. Mediante otra fórmula que se basa en la correlación promedio
Dagoberto Salgado Horta Página 7
2. MÉTODOS DE ANÁLISIS
MULTIVARIADO
Dagoberto Salgado Horta Página 8
2. LOS MÉTODOS DE ANÁLISIS MULTIVARIADO
Los métodos de análisis multivariado son aquellos en que se analiza la relación
entre diversas variables independientes y al menos una dependiente. Son
métodos más complejos que requieren del uso de computadoras para efectuar
los cálculos necesarios
Entre las técnicas más comunes se encuentran (1) Análisis de componentes
principales y factores comunes, (2) regresión y correlación múltiple, (3) análisis
discriminante múltiple, (4) análisis multivariado de varianza y covarianza, (5)
análisis conjunto, (6) correlación canónica, (7) análisis de clusters, (8) escala
multidimensional. Otras técnicas nuevas incluyen (9) análisis de
correspondencia, (10) modelos de probabilidad lineal tales como el logit y
probit, y (11) modelos de ecuación simultaneas / estructurales. A continuación
se describen brevemente éstas técnicas.
Análisis de componentes principales y de factores comunes
Es un método estadístico que puede usarse para analizar las interrelaciones
entre un gran número de variables y explicar esas variables en términos de sus
dimensiones subyacentes comunes. El objetivo es hallar la forma de sintetizar
la información contenida en un número de variables originales, dentro de un
Dagoberto Salgado Horta Página 9
conjunto más pequeño de variates (factores) con mínima pérdida de
información.
Regresión múltiple
En un método de análisis adecuado cuando el problema de investigación
involucra una variable dependiente única que se presume se relaciona a dos o
más variables independientes medibles. El objetivo es predecir el cambio en la
variable dependiente de respuesta con cambios en las variables
independientes, normalmente con el método de mínimos cuadrados.
Por ejemplo se pueden predecir los montos gastados en cenas a partir de
ingresos de las familias (variable dependiente), su tamaño, y la edad del padre
(variables independientes).
Análisis discriminante múltiple (MDA)
Se aplica cuando la variable dependiente es dicotómica (Vg. hombre – mujer) o
multitómica (Vg.. Alto – medio – bajo) y por tanto no medible. Como en la
regresión las variables independientes deben ser medibles. Se aplica cuando la
muestra total se puede dividir en grupos con base en una variable no medible
caracterizando varias clases conocidas. Su objetivo es comprender las
diferencias entre grupos y predecir la probabilidad de que una entidad (objeto
individual) pertenezca a una clase o grupo particular con base en varias
variables independientes medibles o métricas.
Por ejemplo el análisis discriminante se puede utilizar para distinguir entre
innovadores y no innovadores de acuerdo a su perfil demográfico y
psicográfico.
Análisis multivariado de varianza y covarianza (MANOVA)
Es un método estadístico para explorar simultáneamente la relación entre
varias variables categóricas independientes (referidas como tratamientos) y dos
o más variables dependientes medibles o métricas. Es una extensión del
ANOVA univariado. El análisis multivariado de covarianza (MANCOVA) se
Dagoberto Salgado Horta Página 10
puede usar en conjunto con el MANOVA para remover (después del
experimento) el efecto de cualquier variable métrica independiente no
controlada (conocida como covariada) en la variable independiente.
Análisis conjunto
Se aplica a nuevos productos para evaluar la importancia de los atributos del
nuevo producto así como los niveles de cada atributo, mientras que el
consumidor evalúa solo unos pocos perfiles del producto como combinaciones
de los niveles de producto.
Por ejemplo asumir un producto con tres atributos (precio, calidad y color),
cada uno en tres niveles posibles (Vg.. Rojo, amarillo y azul). En vez de tener
que evaluar las 27 combinaciones posibles (3x3x3), se evalúa un subconjunto
de 9 o más combinaciones con base en su atractivo para el consumidor, de
manera que el investigador no solo conozca la importancia de cada atributo,
sino además la importancia de cada nivel (atractivo del rojo vs. amarillo vs.
azul).
Correlación canónica
El análisis de correlación puede ser visto como una extensión lógica de la
regresión múltiple. Donde se trata de correlacionar simultáneamente varias
variables dependientes medibles o métricas y varias variables independientes
medibles. El principio es establecer una combinación lineal de cada conjunto de
variables (dependientes e independientes) para maximizar la correlación entre
los dos conjuntos (obteniendo ponderaciones adecuados para las variables).
Análisis de conglomerados (Clusters)
Es una técnica analítica para desarrollar subgrupos significativos de individuos
u o objetos. Específicamente, el objetivo es clasificar una muestra de entidades
(individuos u objetos) en un número más pequeño de grupos más pequeños
con base en las similitudes entre entidades. A diferencia del análisis
discriminante, los grupos no están definidos, más bien se usa para
identificarlos.
Dagoberto Salgado Horta Página 11
Normalmente se realiza en tres pasos. El primero es la medición de alguna
forma de similitud o asociación entre las entidades para identificar cuantos
grupos realmente existen en la muestra. El segundo paso es el proceso en sí
de conglomerados, donde las entidades se particionan en grupos
(conglomerados o clusters). El paso final es perfilar las personas o variables
para determinar su composición. Muchas veces esto último se realiza con el
análisis discriminante.
Escala multidimensional
El objetivo es transformar los juicios del consumidor de similitud o preferencias
(Vg. Preferencia por tiendas o marcas) en distancias representadas en un
espacio multidimensional. Si los objetos A y B se juzgan por el consumidor
como similares, comparados con cualquier otro par de objetos, la técnica
posiciona los objetos A y B de manera que la distancia entre ellos en un
espacio multidimensional es más pequeña que la distancia entre cualquier otro
par de objetos. Al final se muestra un mapa perceptual con la posición relativa
de los objetos.
Análisis de correspondencia
Facilita tanto la reducción dimensional de objetos en un conjunto de atributos y
el mapa perceptual de objetos respecto a estos atributos. En su forma más
elemental es una tabla de contingencia o tabulación cruzada de dos variables
categóricas. Transforma los datos no métricos a un nivel medible y realiza una
reducción dimensional (similar al análisis de factores) y un mapa perceptual
(similar al análisis multidimensional).
Por ejemplo, las preferencias de marcas de los consumidores pueden ser
tabuladas contra variables demográficas (Vg. Género, categorías de ingresos,
ocupación) indicando cuanta gente prefiere cada una de las marcas que caen
en cada categoría de las variables demográficas. Por medio del análisis de
correspondencia, la asociación o ―correspondencia‖ de marcas y las
características distintivas de aquellos que prefieren las marcas se muestran en
Dagoberto Salgado Horta Página 12
un mapa tridimensional o bidimensional tanto de marcas como de las
características que distinguen a aquellos que prefieren cada marca.
Modelos de probabilidad lineal (Análisis Logit)
Son una combinación de regresión múltiple y análisis discriminante. Es similar
al análisis de regresión múltiple excepto que la variable dependiente es
categórica no métrica como en el análisis discriminante.
Modelos de ecuaciones estructurales
A veces se refiere como el nombre del software LISREL, es una técnica que
permite separar las relaciones del conjunto de variables dependientes. En su
forma más sencilla proporciona el modelo más adecuado y la técnica de
estimación más eficiente para una serie de ecuaciones de regresión múltiple,
evaluadas simultáneamente. Se caracteriza por dos componentes básicos: (1)
el modelo estructural y (2) el modelo de medición.
El modelo estructural es la ―vía‖ que relaciona variables dependientes e
independientes. El modelo de medición permite al investigador a usar varias
variables (indicadores) para una variable dependiente e independiente.
Dagoberto Salgado Horta Página 13
Los datos para HATCO son los siguientes:
Variables / Tipo
Percepciones / Medibles (Métricas)
X1 Tiempo de entrega - entrega del producto con la orden confirmada
X2 Nivel de precios - nivel de precio percibido ponderación por
proveedores
X3 Flexibilidad de precios - flexibilidad para negociar precios
X4 Imagen de la empresa - general
X5 Servicio en general - nivel necesario para mantener relaciones
X6 Imagen de la fuerza de ventas - general
X7 Calidad del producto – calidad percibida en desempeño o rendimiento
Resultados de compras / Medibles (Métricas)
X9 Nivel de utilización - que porcentaje de producto es surtido por Hatco
X10 Nivel de satisfacción – que tan satisfecho esta el cliente con Hatco
Características del comprador / No Medibles (No Métricas)
X8 Tamaño de la empresa - 1- Grande 0 - pequeño
X11 Especificación de compra - 1-Evalúa por el valor total y 0- especificación
X12 Estructura de abastecimiento – 1- centralizado 0 - descentralizado
X13 Tipo de industria - 1- industria A 0 – otras industrias
X14 Tipo de situación de compra – 1- nueva 2- modificada 0- tradicional
Dagoberto Salgado Horta Página 14
3. ANOVA DE K DIRECCIONES
Dagoberto Salgado Horta Página 15
3. ANOVA (análisis de varianza de k direcciones )
El ANOVA es similar a la regresión en el sentido de que se utiliza para
investigar y modelar la relación entre una variable de respuesta y una o más
variables independientes. Sin embargo, el ANOVA difiere de la regresión en
dos aspectos: las variables independientes son cualitativas (categóricas), y no
hay supuestos acerca de la naturaleza de la relación (o sea que el modelo no
incluye coeficientes para variables). En efecto el ANOVA extiende la prueba de
dos muestras con prueba t para probar la igualdad de dos poblaciones a una
hipótesis más general al comparar más de dos medias, versus que no sean
iguales.
Definición: Es una prueba estadística para evaluar el efecto de dos o más
variables independientes sobre una variable dependiente.
Responde a esquemas como el que se muestra en la figura:
Constituye una extensión del análisis de varianza unidireccional, solamente
Dagoberto Salgado Horta Página 16
Que incluye más de una variable independiente. Evalúa los efectos por
separado de cada variable independiente y los efectos conjuntos de dos o más
variables independientes.
Variables: Dos o más variables independientes y una dependiente.
Nivel de medición de las variables: La variable dependiente (criterio) debe estar
medida en un nivel por intervalos o razón, y las variables independientes
(factores) pueden estar en cualquier nivel de medición, pero expresadas de
manera categórica.
Interpretación y ejemplo
Hi: La similitud en valores, la atracción física y el grado de retroalimentación
positiva son variables que inciden en la satisfacción sobre la relación en
parejas de novios.
Contexto: Muestra de parejas de adultos jóvenes (23-29 años), pertenecientes
a estratos económicos altos (n=400).
El ANOVA efectuado mediante un paquete estadístico computacional como
SPSS produce los siguientes elementos básicos:
• Fuente de la variación (source of variation). Es el factor que origina variación
en la dependiente. Si una fuente no origina variación en la dependiente, no
tiene efectos.
• Efectos principales (main effects). Es el efecto de cada variable independiente
por separado; no está contaminado del efecto de otras variables
independientes ni de error. Suele proporcionarse la suma de todos los efectos
principales.
Dagoberto Salgado Horta Página 17
• Interacciones de dos direcciones (2-way interactions). Representa el efecto
conjunto de dos variables independientes, aislado de los demás posibles
efectos de las variables independientes (individuales o en conjuntos). Suele
proporcionarse la suma de los efectos de todas estas interacciones.
• Interacciones de tres direcciones (3-way interactions). Constituye el efecto
conjunto de tres variables independientes, aislado de otros efectos. Suele
proporcionarse la suma de los efectos de todas estas interacciones.
• Puede haber efecto de K-direcciones, esto depende del número de variables
independientes.
En nuestro ejemplo, tenemos los resultados siguientes:
TABLA ANOVA
VARIABLE DEPENDIENTE: SATISFACCIÓN EN LA RELACIÓN
Fuente de variación
Suma de cuadrados
Grados de libertad
Cuadrados medios
Estadístico F Significancia de Fc = P
Efectos principales (main effects
22.51 .001**
SIMILITUD 31.18 0.001**
ATRACCIÓN 21.02 0.001**
RETROALIM 11.84 0.004**
SIMILITUD ATRACCIÓN
-4.32 0.04*
SIMILITUD RETROALIM
2.18 0.11
ATRACCION RETROALIM
1.56 0.190
SIN – RETROL-ATRACCION
8.01 0.02*
NOTA: Normalmente interesa saber si las razones ―F‖ resultaron o no
significativas; por tanto, sólo se incluyen estos valores. Se recomienda
Dagoberto Salgado Horta Página 18
concentrarse en dichos valores y evitar confusiones. Desde luego, el
investigador experimentado acostumbra estudiar todos los valores.
**— Razón ―F‖ significativa al nivel del 0.01 (p < 0.01)
*—Razón ―F‖ significativa al nivel del 0.05 (p < 0.05)
Como podemos ver en la tabla, la similitud, la atracción y la retroalimentación
tienen un efecto significativo sobre la satisfacción en la relación.
Respecto a los efectos de dos variables independientes conjuntas, sólo la
similitud y la atracción tienen un efecto, hay un efecto conjunto de las tres
variables independientes. La hipótesis de investigación se acepta y la nula se
rechaza. Asimismo, se recuerda al lector que en el capítulo 5 del presente
disco: Otros diseños experimentales (en el apartado sobre diseños factoriales)
se explica la noción de interacción entre variables independientes. Cabe
agregar que el ANOVA es un método estadístico propio para los diseños
experimentales factoriales.
Ejemplo:
Un experimento se realizó para probar cuanto tiempo toma usar un modelo
nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un
problema estadístico y uno de ingeniería se les toma el tiempo para resolver el
problema. Los ingenieros se consideran como bloques en el diseño
experimental.
Hay dos factores: Tipo de problema y modelo de calculadora – cada uno con
dos niveles, se hacen experimentos donde esos niveles de los factores se
cruzan. Los datos se muestran a continuación:
SolveTime Engineer ProbType Calculator
3.1 Jones Stat New
7.5 Jones Stat Old
2.5 Jones Eng New
Dagoberto Salgado Horta Página 19
5.1 Jones Eng Old
3.8 Williams Stat New
8.1 Williams Stat Old
2.8 Williams Eng New
5.3 Williams Eng Old
3 Adams Stat New
7.6 Adams Stat Old
2 Adams Eng New
4.9 Adams Eng Old
3.4 Dixon Stat New
7.8 Dixon Stat Old
2.7 Dixon Eng New
5.5 Dixon Eng Old
3.3 Erickson Stat New
6.9 Erickson Stat Old
2.5 Erickson Eng New
5.4 Erickson Eng Old
3.6 Maynes Stat New
7.8 Maynes Stat Old
2.4 Maynes Eng New
4.8 Maynes Eng Old
Las instrucciones de Minitab son las siguientes:
1 Abrir la worksheet EXH_AOV.MTW.
2 Stat > ANOVA > Balanced ANOVA.
3 Responses, poner SolveTime.
4 Model, poner Engineer ProbType | Calculator.
5 En Random Factors, poner Engineer.
6 Click Results. En Display means corresponding to the terms, poner ProbType | Calculator. Click OK cada cuadro de diálogo.
Los resultados obtenidos son los siguientes:
ANOVA: SolveTime versus Engineer, ProbType, Calculator Factor Type Levels Values
Engineer random 6 Adams, Dixon, Erickson, Jones, Maynes, Williams
ProbType fixed 2 Eng, Stat
Calculator fixed 2 New, Old
Analysis of Variance for SolveTime
Source DF SS MS F P
Dagoberto Salgado Horta Página 20
Engineer 5 1.053 0.211 3.13 0.039
ProbType 1 16.667 16.667 247.52 0.000
Calculator 1 72.107 72.107 1070.89 0.000
ProbType*Calculator 1 3.682 3.682 54.68 0.000
Error 15 1.010 0.067
Total 23 94.518
S = 0.259487 R-Sq = 98.93% R-Sq(adj) = 98.36%
Means
ProbType N SolveTime
Eng 12 3.8250
Stat 12 5.4917
Calculator N SolveTime
New 12 2.9250
Old 12 6.3917
ProbType Calculator N SolveTime
Eng New 6 2.4833
Eng Old 6 5.1667
Stat New 6 3.3667
Stat Old 6 7.6167
Interpretación de los resultados:
Se muestran los factores (fijos y aleatorios), niveles y valores. Después se
muestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay una
interacción significativa entre el tipo de problema y el modelo de calculadora, lo
que implica que la reducción en tiempo de proceso de la calculadora depende
del tipo de problema.
En la lista de promedios se observa un menor tiempo entre la calculadora
nueva y la anterior.
Dagoberto Salgado Horta Página 21
4. ANÁLISIS MULTIVARIADO DE VARIANZA
(MANOVA)
Dagoberto Salgado Horta Página 22
4. ANÁLISIS MULTIVARIADO DE VARIANZA (MANOVA) Es un modelo para analizar la relación entre una o más variables
independientes y dos o más variables dependientes. Es decir, es útil para
estructuras causales del tipo:
La técnica posee varios usos, entre los que destacan:
- Evaluar diferencias entre grupos a través de múltiples variables dependientes
(medidas por intervalos o razón). La(s) variable(s) independiente(s) es(son)
categórica(s) (no métricas). Tiene el poder de evaluar no solamente las
diferencias totales, sino diferencias entre las combinaciones de las
dependientes.
En este sentido representa una extensión del análisis de varianza (ANOVA)
para cubrir casos donde hay más de una variable dependiente y/o cuando las
variables dependientes simplemente no pueden ser combinadas. En otras
palabras, reconoce si los cambios en la(s) variable(s) independiente(s) tienen
un efecto significativo en las dependientes. Señala qué grupos difieren en una
variable o en el conjunto de variables dependientes.
Dagoberto Salgado Horta Página 23
- Identificar las interacciones entre las variables independientes y la asociación
entre las dependientes.
Las tres clases principales del MANOVA son:
1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con más
dependientes: una variable independiente dicotómica y varias dependientes.
2) MANOVA unidireccional. Análogo al ANOVA de una sola vía, pero con más
dependientes: una variable independiente multicategórica y varias
dependientes.
3) MANOVA factorial. Similar al ANOVA factorial, solamente que con dos o más
dependientes: varias independientes categóricas y varias dependientes.
Los modelos del MANOVA tienen en común que forman combinaciones
lineales de las dependientes que discriminan mejor entre los grupos en un
experimento o una situación no experimental. Es una prueba de significancia
de las diferencias en los grupos en un espacio multidimensional donde cada
dimensión está definida por combinaciones lineales del conjunto de variables
dependientes.
Una pregunta que suele hacer el estudiante al revisar el MANOVA es ¿por qué
no hacemos ANOVAS separados, uno para cada dependiente? La respuesta:
las dependientes están correlacionadas muy frecuentemente, por lo cual los
resultados de varios ANOVA pueden ser redundantes y difíciles de integrar. He
aquí una síntesis de la explicación de Wiersma (1999) sobre este tipo de
análisis:
Al incluir dos o más variables dependientes simultáneamente no se consideran
las diferencias entre las medias en cada variable, sino las diferencias en
variables canónicas. El interés no sólo es saber si los grupos definidos por las
variables independientes difieren en las variables canónicas, sino conocer la
Dagoberto Salgado Horta Página 24
naturaleza de éstas. Una variable canónica es una variable artificial generada a
partir de los datos. Representa constructos y se compone de variables reales,
las cuales deben ser descritas en términos de variables dependientes. Lo
anterior se efectúa por medio de las ponderaciones de los coeficientes de
correlación entre una variable dependiente y una variable canónica. Si una
ponderación entre la variable canónica y la dependiente es positiva y elevada,
significa que altos valores en la dependiente se asocian con altos valores en la
canónica. Por ejemplo, si una variable dependiente consiste en puntuaciones a
una prueba sobre innovación, y dichas puntuaciones se correlacionan en forma
considerable con una variable canónica, inferimos que la variable canónica
representa un constructo que involucra esencialmente a la innovación.
En los cálculos que se hacen en el MANOVA, se generan variables canónicas
hasta que se encuentra que no hay una diferencia estadística significativa entre
las categorías o los grupos de las variables independientes; o bien, hasta que
se agotan los grados de libertad de las variables independientes (lo que ocurra
primero). El número de variables canónicas no puede exceder el número de
variables dependientes, pero es común que el número de dependientes sea
mayor que el de variables canónicas estadísticamente significativas o los
grados de libertad.
La hipótesis general de investigación en el MANOVA postula que las medias de
los grupos o las categorías de la(s) variable(s) independiente(s) difieren entre sí
en las variables canónicas. La hipótesis nula postula que dichas medias serán
iguales.
Se calculan diversas estadísticas para evaluar ambas hipótesis, entre las que
destacan: F (total, toma en cuenta el modelo completo), la prueba Hotelling's
TSquare, T2 (cuando hay dos grupos formados por las variables
independientes), Wilks' lambda, U (cuando hay más de dos grupos formados
por las variables independientes), y Pillai-Bartlett (cuando hay coeficientes
canónicos); y si resultan significativas en un nivel de confianza, se acepta la
hipótesis de investigación de diferencia de medias. Esto indica que hay, por lo
Dagoberto Salgado Horta Página 25
menos, una variable canónica significativa (pero puede haber varias). Si
diversas variables canónicas son significativas, esto muestra que se presentan
diferencias en las variables canónicas en cuestión, entre los grupos o
categorías de las independientes.
Los paquetes estadísticos que contiene el MANOVA suelen posicionar a los
grupos de las variables independientes por puntuaciones discriminantes; éstas
son calculadas con una función discriminante, que es una ecuación de
regresión para un compuesto de variables dependientes. A cada grupo se le
asigna una puntuación discriminante en cada variable canónica. Las
puntuaciones discriminantes de una variable independiente pueden ser cero o
tener un valor positivo o negativo.
Una puntuación discriminante positiva y elevada para un grupo, indica que éste
se coloca por encima de los demás en la respectiva variable canónica. Y deben
considerarse las ponderaciones, las cuales son positivas o negativas. Las
puntuaciones discriminantes son utilizadas para interpretar las separaciones de
los grupos en las variables canónicas, en tanto que las ponderaciones se usan
para evaluar y ligar los resultados de las variables dependientes (Wiersma,
1999). Un ejemplo de las ponderaciones de los coeficientes de correlación
entre las variables dependientes y las variables canónicas así como las
puntuaciones discriminantes se muestran en las tablas siguientes:
Dagoberto Salgado Horta Página 26
Como observamos en la última tabla, se obtuvieron tres constructos
subyacentes en las puntuaciones recolectadas de la muestra: motivación
intrínseca, atribución de causalidad externa y desempeño laboral. Vemos en la
tabla que los grupos (niveles en la empresa) están separados en las tres
variables canónicas (los grupos difieren), particularmente en la primera variable
canónica (motivación intrínseca) y los obreros ocupan la posición más baja. Las
variables dependientes enmarcadas en un recuadro en la primera variable
Dagoberto Salgado Horta Página 27
canónica se ponderaron en ella; en consecuencia, los ejecutivos tienen las
puntuaciones más altas en motivación intrínseca medida por la escala
mencionada, en atribuciones internas y en sentimientos de éxito en el trabajo.
Así se interpretan todas las variables canónicas y dependientes.
En el MANOVA se incluyen razones F y análisis de varianza. Algunos paquetes
estadísticos agregan una prueba denominada correlación canónica, que es
muy similar al MANOVA. Ésta es la máxima correlación que llega a obtenerse
entre los conjuntos de puntuaciones y las relaciones entre las variables
independientes, entre las variables dependientes y entre los conjuntos de
ambas (dependientes e independientes) (Kerlinger, 1979). Las variables en el
MANOVA y la correlación canónica asumen que las variables dependientes
están medidas en un nivel de intervalos o razón. Tal correlación se interpreta
como otras; pero el contexto de interpretación varía de acuerdo con el número
de variables involucradas.
Dagoberto Salgado Horta Página 28
Ejemplo con Minitab
Se realiza un estudio para determinar las condiciones óptimas para extruir
película plástica. Se miden tres respuestas – Tear, gloss y opacity – cinco
veces en cada combinación de dos factores – tasa de extrusión y cantidad de
aditivo – cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA
balanceado para probar la igualdad de las medias.
DATOS
Tear Gloss Opacity Extrusión Additive
6.5 9.5 4.4 1 1
6.2 9.9 6.4 1 1
5.8 9.6 3 1 1
6.5 9.6 4.1 1 1
6.5 9.2 0.8 1 1
6.9 9.1 5.7 1 2
7.2 10 2 1 2
6.9 9.9 3.9 1 2
6.1 9.5 1.9 1 2
6.3 9.4 5.7 1 2
6.7 9.1 2.8 2 1
6.6 9.3 4.1 2 1
7.2 8.3 3.8 2 1
7.1 8.4 1.6 2 1
6.8 8.5 3.4 2 1
7.1 9.2 8.4 2 2
7 8.8 5.2 2 2
7.2 9.7 6.9 2 2
7.5 10.1 2.7 2 2
7.6 9.2 1.9 2 2
Instrucciones de Minitab
1 Abrir el archivo EXH_MVAR.MTW.
2 Seleccionar Stat > ANOVA > Balanced MANOVA.
3 En Responses, poner Tear Gloss Opacity.
4 En Model, poner Extrusion | Additive.
Dagoberto Salgado Horta Página 29
5 Click Results. En Display of Results, seleccionar Matrices
(hypothesis, error, partial correlations) y Eigen analysis.
6 Click OK en cada cuadro de diálogo.
Los resultados se muestran a continuación:
Results for: Exh_mvar.MTW
ANOVA: Tear, Gloss, Opacity versus Extrusion, Additive
MANOVA for Extrusion
s = 1 m = 0.5 n = 6.0
Test DF
Criterion Statistic F Num Denom P
Wilks' 0.38186 7.554 3 14 0.003
Lawley-Hotelling 1.61877 7.554 3 14 0.003
Pillai's 0.61814 7.554 3 14 0.003
Roy's 1.61877
SSCP Matrix for Extrusion
Tear Gloss Opacity
Tear 1.740 -1.505 0.8555
Gloss -1.505 1.301 -0.7395
Opacity 0.855 -0.739 0.4205
SSCP Matrix for Error
Tear Gloss Opacity
Tear 1.764 0.0200 -3.070
Gloss 0.020 2.6280 -0.552
Opacity -3.070 -0.5520 64.924
Partial Correlations for the Error SSCP Matrix
Tear Gloss Opacity
Dagoberto Salgado Horta Página 30
Tear 1.00000 0.00929 -0.28687
Gloss 0.00929 1.00000 -0.04226
Opacity -0.28687 -0.04226 1.00000
EIGEN Analysis for Extrusion
Eigenvalue 1.619 0.00000
Proportion 1.000 0.00000
Cumulative 1.000 1.00000
Eigenvector 1 2 3
Tear 0.6541 0.4315 0.0604
Gloss -0.3385 0.5163 0.0012
Opacity 0.0359 0.0302 -0.1209
MANOVA for Additive
s = 1 m = 0.5 n = 6.0
Test DF
Criterion Statistic F Num Denom P
Wilks' 0.52303 4.256 3 14 0.025
Lawley-Hotelling 0.91192 4.256 3 14 0.025
Pillai's 0.47697 4.256 3 14 0.025
Roy's 0.91192
SSCP Matrix for Additive
Tear Gloss Opacity
Tear 0.7605 0.6825 1.931
Gloss 0.6825 0.6125 1.732
Opacity 1.9305 1.7325 4.901
EIGEN Analysis for Additive
Eigenvalue 0.9119 0.00000
Proportion 1.0000 0.00000
Cumulative 1.0000 1.00000
Dagoberto Salgado Horta Página 31
Eigenvector 1 2 3
Tear -0.6330 0.4480 -0.1276
Gloss -0.3214 -0.4992 -0.1694
Opacity -0.0684 0.0000 0.1102
MANOVA for Extrusion*Additive
s = 1 m = 0.5 n = 6.0
Test DF
Criterion Statistic F Num Denom P
Wilks' 0.77711 1.339 3 14 0.302
Lawley-Hotelling 0.28683 1.339 3 14 0.302
Pillai's 0.22289 1.339 3 14 0.302
Roy's 0.28683
SSCP Matrix for Extrusion*Additive
Tear Gloss Opacity
Tear 0.000500 0.01650 0.04450
Gloss 0.016500 0.54450 1.46850
Opacity 0.044500 1.46850 3.96050
EIGEN Analysis for Extrusion*Additive
Eigenvalue 0.2868 0.00000
Proportion 1.0000 0.00000 0.00000
Cumulative 1.0000 1.00000 1.00000
Eigenvector 1 2 3
Tear -0.1364 0.1806 0.7527
Gloss -0.5376 -0.3028 -0.0228
Opacity -0.0683 0.1102 -0.0000
Por default se muestra la tabla para las cuatro pruebas multivariadas (Wilks,
Lawley, Hotelling, Pillai y Roy) para cada uno de los términos en el modelo.
Dagoberto Salgado Horta Página 32
Los valores s, m y n se utilizan para los cálculos de los estadísticos de prueba
Fc, el cual es exacto si s = 1 o 2 de otra forma es aproximado.
Examinando los valores P de las pruebas para Extrusión y Aditivo se observa
que son significativas para un nivel de 0.05, no así la interacción.
Las matrices SSCP se usan para evaluar la contribución a la variabilidad de
manera similar a la suma de cuadrados en la ANOVA univariada. La matriz
SSCP para Extrusion es la suma de cuadrados de la hipótesis y matriz de
productos cruzados H para las tres respuestas con el término de modelo
Extrusión. Los elementos diagonales de esta matriz, 1.740, 1.301 y 64.924 son
las sumas de cuadrados univariados para el término del modelo Extrusión
cuando las variables de respuesta son Tear, Gloss y Opacity respectivamente.
Los elementos fuera de la diagonal son los productos cruzados.
La matriz SSCP para el error es la suma de cuadrados de los errores y
productos cruzados E. Los elementos diagonales de la matriz 1.764, 2.6280, y
64.924 son las sumas de cuadrados de los errores para las variables de
respuesta Teat, Gloss y Opacity, respectivamente. Los elementos fuera de la
diagonal de esta matriz son los productos cruzados.
La matriz de correlaciones parciales para el error SSCP, se usa para evaluar
que tanto se relacionan las variables de respuesta. Las correlaciones parciales
entre Tear y Gloss son pequeñas con 0.00929 y entre Gloss y Opacity -
0.04226. Y la correlación parcial entre Tear y Opacity es de -0.28687 tampoco
es grande. Como la estructura de las correlaciones es débil, se pueden realizar
análisis univariados de ANOVA para cada una de las respuestas.
Se puede utilizar el análisis de valores característicos o Eigenvalores, para
evaluar como difieren los promedios de las respuestas entre los niveles de los
diferentes términos del modelo. El análisis de Eigenvalores es E-1 H donde E es
la matriz SCCP del error y H es la matriz SCCP de las variables de respuesta.
Estos son los eigenvalores utilizados para calcular las cuatro pruebas de
MANOVA.
Dagoberto Salgado Horta Página 33
Poner la mayor importancia en los eigenvectores que corresponden a valores
altos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores son
pequeños, no significativos. Para ambos factores, Extrusion y Additive, los
primeros eigenvalores contienen información similar. Para Extrusion es 0.6541,
-0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El mayor valor
absoluto dentro de esos eigenvalores corresponde a la respuesta Tear, el
segundo a Gloss y el valor para Opacity es pequeño. Esto implica que Tear
tiene la mayor diferencia entre los dos niveles de los factores ya sea Extrusion
o Additive, el Gloss tiene las siguientes mayores diferencias y op.citp. tiene solo
pequeñas diferencias.
Para un análisis más general utilizar General MANOVA con diseños
balanceados y no balanceados, incluso si se tienen covariados.
1 Seleccionar Stat > ANOVA > General MANOVA.
2 En Responses, seleccionar hasta 50 columnas numéricas conteniendo las
variables de respuesta.
3 En Model, introducir los términos del modelo que se quiera ajustar.
4. Click OK.
Dagoberto Salgado Horta Página 34
5 ANÁLISIS DE COVARIANZA
Dagoberto Salgado Horta Página 35
5. ANÁLISIS DE COVARIANZA
Definición: Es un método estadístico que analiza la relación entre una variable
dependiente y dos o más independientes, con el que se elimina o controla el
efecto de al menos una de estas independientes. Similar al ANOVA, excepto
que permite controlar la influencia de una variable independiente, la cual con
frecuencia es una característica antecedente que puede variar entre los grupos
(Mertens, 2005) o influir los resultados y afectar la claridad de las
interpretaciones.
Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres perspectivas
para el análisis de covarianza:
A. Perspectiva experimental. Se aplica a aquellas situaciones en que el interés
del investigador se centra en las diferencias observadas en la variable
dependiente, por medio de las categorías de la variable independiente (o
variables independientes). Pero el experimentador asume que hay otras
variables independientes cuantitativas que contaminan la relación y cuya
influencia debe ser controlada.
Dagoberto Salgado Horta Página 36
Y el investigador únicamente se interesa por conocer la relación entre las
variables independientes categóricas y la variable dependiente. Desea al
mismo tiempo remover y controlar el efecto de las variables independientes
cuantitativas no categóricas (continuas). Es decir, desea tener un esquema
como el de la figura
El objetivo es ―purificar la relación entre las independientes categóricas y la
Variable dependiente, mediante el control del efecto de las independientes no
categóricas o continuas‖.
Ejemplos de variables independientes categóricas serían: género (masculino,
femenino), inteligencia (alta, media, baja), ingreso (menos de un salario
mínimo, dos a cuatro salarios mínimos, cinco a 10 salarios mínimos, 11 o más
salarios mínimos).
Los niveles de medición nominal y ordinal son categóricos en sí mismos,
mientras que los niveles de intervalos y razón deben transformarse en
categorías más discretas. Estos últimos son en sí: cuantitativos, continuos y de
categorías múltiples. Por ejemplo, el ingreso en su ―estado natural‖
(ponderaciones, dólares, euros, etc.) varía de la categoría cero hasta la
categoría (K)k, ya que puede haber millones de categorías.
Dagoberto Salgado Horta Página 37
Variable categórica — unas cuantas categorías o un rango medio.
Variable continua — muchas categorías (a veces una infinidad).
A dichas variables independientes cuantitativas continuas, cuya influencia se
controla, se les denomina “covariables”. Una covariable se incluye en el análisis
para remover su efecto sobre la variable dependiente, e incrementar el
conocimiento de la relación entre las variables independientes categóricas de
interés y la dependiente, lo cual aumenta la precisión del análisis.
En esta perspectiva, el análisis de covarianza puede ser concebido primero
como un ajuste en la variable dependiente respecto a diferencias en la
covariable o las covariables y, posteriormente, como una evaluación de la
relación entre las variables independientes categóricas y los valores ajustados
de la variable dependiente (Wildt y Ahtola, 1978). En términos de Creswell
(2005):
El procedimiento ―ajusta‖ las puntuaciones en la dependiente para dar cuenta
por la covarianza (por decirlo en términos sencillos: ―hace equivalentes a los
grupos en la(s) covariable(s)‖ y controla influencias potenciales que pueden
afectar a la variable dependiente).
B. Perspectiva de interés por la covariable. Esta perspectiva se ejemplifica con
aquellas instancias en las cuales el interés principal se centra en analizar la
relación entre la variable dependiente y la covariable (variable cuantitativa
continua) o las covariables. Aquí el enfoque es distinto; la influencia que se
remueve es la de las variables independientes categóricas. Primero se controla
el efecto (en este caso contaminante) de estas variables y después se analiza
el efecto ―purificado‖ de las covariables.
C. Perspectiva de regresión. En esta tercera perspectiva, tanto las variables
independientes categóricas como las covariables resultan de interés para el
Dagoberto Salgado Horta Página 38
investigador, quien puede desear examinar el efecto de cada variable
independiente (covariables y no covariables, todas) y después ajustar o corregir
los efectos de las demás variables independientes.
En cualquier caso, el análisis de covarianza elimina influencias no deseadas
sobre la variable dependiente. Se puede utilizar en contextos experimentales y
no experimentales. La mayoría de las veces la función del ANCOVA es
―remover‖ la varianza compartida entre una o más covariables y la dependiente,
de este modo, se valora en su justa dimensión la relación causal entre la(s)
variable(s) independiente(s) de interés y la dependiente (Creswell, 2005).
Veámoslo conceptualmente pero de forma gráfica con un ejemplo simple:
Ejemplo:
Estudio: Al investigador le interesa analizar el efecto en el aprendizaje de la
computación, por medio un nuevo método para su enseñanza a niños. La
hipótesis es: El nuevo método de enseñanza de la computación (MA-RH)
provocará un mayor aprendizaje en los niños que un método tradicional.
Entonces, implementa el siguiente experimento: A un grupo de infantes los
expone al nuevo método de enseñanza de computación (MA-RHS); a otro
grupo no lo expone al nuevo método, éste aprende con el método tradicional;
finalmente, a un tercer grupo, de control, no recibe ningún tipo de enseñanza
en computación.
La variable independiente es el tipo de método con tres categorías o niveles
(método nuevo, método tradicional y ausencia de método), la dependiente es el
aprendizaje en computación (medida por una prueba estandarizada a nivel de
intervalos). Se tiene un esquema como el de la figura.
Dagoberto Salgado Horta Página 39
Con el experimento el investigador desea conocer la varianza en común entre
método y aprendizaje (cuantificarla), la relación XY (pura). Si los niños son
asignados al azar a los grupos del experimento y tiene grupos de tamaño
aceptable, por el diseño mismo, remueve la influencia de las covariables que
pudieran afectar. Pero si no es factible hacerlo y tiene un diseño
cuasiexperimental (grupos intactos), debe remover tal influencia con el análisis
de covarianza (eliminar al mínimo posible la varianza del aprendizaje no
explicada), para evitar que las covariables impidan ver con claridad la relación
XY. Por ejemplo, el nivel educativo tecnológico de los padres puede influir
(hace variar al aprendizaje) y este efecto debe ser controlado, al introducirlo
como covariable.
Dagoberto Salgado Horta Página 40
Lo que el investigador desea también se puede expresar gráficamente así:
Wildt y Ahtola (1978, p. 13) definen algunos usos del análisis de covarianza:
Dagoberto Salgado Horta Página 41
1. Incrementar la precisión en experimentos con asignación al azar.
2. Eliminar influencias extrañas o contaminantes que pueden resultar cuando
las pruebas o los individuos no son asignados al azar a las diferentes
condiciones experimentales (grupos de un experimento).
3. Eliminar efectos de variables que confundan o distorsionen la interpretación
de resultados en estudios no experimentales.
Nivel de medición de las variables: La variable dependiente siempre está
medida por intervalos o razón y las variables independientes pueden estar
medidas en cualquier nivel.
Interpretación: Depende de cada caso específico, ya que el análisis de
covarianza efectuado mediante un programa estadístico computacional,
produce un cuadro de resultados muy parecido al del análisis de varianza. Los
elementos más comunes pueden observarse en la tabla ANOVA.
La razón F es, igual que en el análisis de varianza, una razón de varianzas. El
razonamiento estadístico es el mismo y F se interpreta igual, incluso se utiliza
el mismo cuadro de la distribución F. Solamente que las inferencias y
conclusiones se hacen al considerar que las medias de la variable
dependiente, a través de las categorías de las variables independientes, se han
ajustado, de este modo eliminan el efecto de la covariable o covariables.
Ejemplo:
Diseño de investigación que utiliza el análisis de covarianza
Hi: Los trabajadores que reciban retroalimentación verbal sobre el desempeño
de parte de su supervisor mantendrán un nivel mayor de productividad que los
trabajadores que reciban retroalimentación sobre el desempeño por escrito,
más aún que los trabajadores que no reciban ningún tipo de retroalimentación.
__ __ __
Dagoberto Salgado Horta Página 42
Hi: X1 > X2 > X3
(verbal) (por escrito) (ausencia)
El investigador plantea un diseño experimental para intentar probar su
hipótesis. Sin embargo, no puede asignar aleatoriamente a los trabajadores a
los tres grupos del experimento. El diseño sería con grupos intactos
(cuasiexperimental) y se esquematizaría así:
Asimismo, el investigador presupone que hay un factor que puede
contaminar los resultados (actuar como fuente de invalidación interna): la
motivación. Diferencias iniciales en motivación pueden invalidar el estudio.
Como la asignación al azar está ausente, no se sabe si los resultados se ven
influidos por dicho factor. Entonces, el experimentador decide eliminar o
controlar el efecto de la motivación sobre la productividad para conocer los
efectos de la variable independiente: tipo de retroalimentación. La motivación
se convierte en covariable.
El esquema es el que se muestra en la figura
Dagoberto Salgado Horta Página 43
Cabe destacar que, para introducir una covariable en el análisis, de preferencia
debe medirse antes del inicio del experimento.
El análisis de covarianza ―quita‖ a la variabilidad de la dependiente lo que se
debe a la covariable. Ajusta la varianza de la variable dependiente en las
categorías de la independiente, al basarse en la covariable. En el ejemplo,
ajusta la varianza de la productividad debida a la motivación, en las categorías
experimentales (tratamientos o grupos). El ajuste se realiza sobre la base de la
correlación entre la covariable y la dependiente. Esto se muestra
esquemáticamente en la tabla.
Una vez realizado el análisis de covarianza, se evalúa si F es o no significativa.
Cuando F resulta significativa se acepta la hipótesis de investigación.
Si el resultado fuera:
G1 = 35
G2 = 36
La correlación entre la calificación en motivación y las puntuaciones en
productividad es la base para el ajuste.
G3 = 38
Gl entre = K – 1 = 3 – 1 = 2
Dagoberto Salgado Horta Página 44
Gl intra = N – K = 107
F = 1.70
Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es igual a
3.07, y nuestra razón F a 1.70 es menor a este valor. Por lo tanto, rechazamos
la hipótesis de investigación y aceptamos la hipótesis nula. Esto se contrasta y
profundiza con las medias ajustadas de los grupos que proporcione el análisis
de covarianza (no las medias obtenidas en el experimento por cada grupo, sino
las ajustadas con base en la covariable).
Recordemos que SPSS nos proporciona automáticamente la significancia de F.
Ejemplo:
Determinar si hay diferencia en la resistencia de una fibra monofilamento
producida por tres máquinas diferentes. El diámetro de la fibra parece tener
influencia en la resistencia como se muestra abajo (covariado de Y).
Datos de resistencia - Y es la respuesta, X es el covariado.
Y X Maq
36 20 1
41 25 1
39 24 1
42 25 1
49 32 1
40 22 2
48 28 2
39 22 2
45 30 2
44 28 2
35 21 3
37 23 3
42 26 3
34 21 3
32 15 3
La relación entre X y Y es significativa como se observa en la siguiente gráfica:
Dagoberto Salgado Horta Página 45
En Minitab:
1. Stat > Regression > Fitted line plot
2. Introducir Y y X, seleccionar Linear
3. OK
X
Y
32.530.027.525.022.520.017.515.0
50
45
40
35
30
S 1.78174
R-Sq 88.1%
R-Sq(adj) 87.2%
Fitted Line PlotY = 14.14 + 1.080 X
Para el ANOVA con Covariados, las instrucciones de Minitab son las
siguientes:
1. Stat > ANOVA > General Linear Model 2. Introducir en Response Y, en Model X y Maquina 3. En Covariates X 4. En Results en Display Least Square Means corresponding to the terms Maq 5. En Graphs seleccionar Normal plot for residuals 6. OK Los resultados se muestran a continuación: General Linear Model: Y versus Maq Factor Type Levels Values
Maq fixed 3 1, 2, 3
Dagoberto Salgado Horta Página 46
Analysis of Variance for Y, using Adjusted SS for Tests
Source DF Seq SS Adj SS Adj MS F P
X 1 305.13 178.01 178.01 69.97 0.000
Maq 2 13.28 13.28 6.64 2.61 0.118
Error 11 27.99 27.99 2.54
Total 14 346.40
S = 1.59505 R-Sq = 91.92% R-Sq(adj) = 89.72%
Term Coef SE Coef T P
Constant 17.177 2.783 6.17 0.000
X 0.9540 0.1140 8.36 0.000
Unusual Observations for Y
Obs Y Fit SE Fit Residual St Resid
7 48.0000 45.1080 0.7489 2.8920 2.05 R
R denotes an observation with a large standardized residual.
Means for Covariates
Covariate Mean StDev
X 24.13 4.324
Least Squares Means for Y
Maq Mean SE Mean
1 40.38 0.7236
2 41.42 0.7444
3 38.80 0.7879
Conclusión: Se observa que no hay diferencia en las máquinas una vez que eliminamos la
variabilidad introducida por el diámetro de la fibra, en caso de no haber tomado
en cuenta la covarianza del diámetro en la resistencia, se hubiese concluido al
revés, que si hay diferencia en las máquinas, como se muestra a continuación:
Con Minitab: 1. Stat > ANOVA > One way 2. Response Y Factor Maquina 3. OK Los resultados son los siguientes:
Dagoberto Salgado Horta Página 47
One-way ANOVA: Y versus Maq Source DF SS MS F P
Maq 2 140.4 70.2 4.09 0.044
Error 12 206.0 17.2
Total 14 346.4
S = 4.143 R-Sq = 40.53% R-Sq(adj) = 30.62%
Individual 95% CIs For Mean Based on Pooled
StDev
Level N Mean StDev +---------+---------+---------+---------
1 5 41.400 4.827 (---------*----------)
2 5 43.200 3.701 (---------*---------)
3 5 36.000 3.808 (---------*---------)
+---------+---------+---------+---------
32.0 36.0 40.0 44.0
Pooled StDev = 4.143
Conclusión: Como P value es menor a 0.05 aparentemente si hay diferencia
entre máquinas.
Dagoberto Salgado Horta Página 48
7. ANÁLISIS DISCRIMINANTE MÚLTIPLE Y
REGRESIÓN LOGÍSTICA
Dagoberto Salgado Horta Página 49
7. ANÁLISIS DISCRIMINANTE MÚLTIPLE Y REGRESIÓN LOGÍSTICA El análisis discriminante, se aplica cuando las variables independientes son
medidas por intervalos o razón, y la dependiente es categórica. Tal análisis
sirve para predecir la pertenencia de un caso a una de las categorías de la
variable dependiente, sobre la base de varias independientes (dos o más). Se
utiliza una ecuación de regresión llamada función discriminante. Por ejemplo, si
queremos predecir el voto obtenido por dos partidos contendientes (variable
dependiente nominal con dos categorías) sobre la base de cuatro variables
independientes, aplicaremos el análisis discriminante, para resolver una
ecuación de regresión; así se obtienen las predicciones individuales.
En el ejemplo, hay dos categorías (votar por A o votar por B); por tanto, los
valores a predecir son 0 y 1 (A y B, respectivamente). Si el sujeto obtiene una
puntuación más cercana a cero, se predice que pertenece al grupo que votará
por A; si logra una puntuación más cercana a 1, se predice que pertenece al
grupo que votará por B. Además, se consigue una medida del grado de
discriminación del modelo.
Usar el Análisis Discrimínate para clasificar observaciones en dos grupos
(Análisis discriminante) o más grupos (Análisis discriminante múltiple – MDA) si
se tiene una muestra con grupos conocidos. Se puede utilizar también para
investigar como contribuyen las variables a la separación de grupos. La
regresión logística o Logit Analysis se limita a dos grupos. Para el caso de
clasificar las observaciones nuevas en una de dos categorías, la regresión
logística puede ser superior al análisis discriminante.
Se pueden hacer análisis discriminantes lineales y cuadráticos. Los lineales
asumen que todos los grupos tienen la misma matriz de covarianza, los
cuadráticos no hacen este supuesto y no son bien comprendidos.
Dagoberto Salgado Horta Página 50
Modelo discriminante
El problema que atiende la función discriminante es que tanto es posible
separar dos o más grupos de individuos, con base en las mediciones
realizadas en esos individuos en varias variables. Por ejemplo para el caso de
los pájaros que sobrevivieron y los que no sobrevivieron, es interesante
considerar si es posible utilizar las dimensiones de sus cuerpos para separar
sobrevivientes de no sobrevivientes.
En el caso general donde hay m muestras aleatorias de diferentes grupos, de
tamaños n1, n2, …., nm y los valores disponibles para p variables X1, X2, …,
Xp para cada miembro de la muestra, la forma de los datos para una función de
análisis discriminante es :
Individuo X1 X2 …… Xp Grupo
1 X111 X112 …… X11p
2 X211 X212 …… X21p Grupo1
… …. …. …… ….
n1 Xn1,11 Xn1,12 …… Xn1,1p
1 X121 X122 …… X12p
2 X221 X222 …… X22p Grupo 2
… ….. ….. …… …..
n2 Xn2,2,1 Xn2,2,2 …… Xn2,2,p
1 X1m1 X1m2 …… X1mp
2 X1m1 X1m2 …… X1mp Grupo m
… …. …. …… ….
nm Xnm,m1 Xnm,m2 …… Xnm,mp
En este caso los datos no requieren ser estandarizados como en el análisis de
componentes principales y análisis factorial, ya que los resultados no son
afectados por la escala de los datos.
Dagoberto Salgado Horta Página 51
Discriminación por distancia de Mahalanobis
Suponiendo que hay g poblaciones y que las distribuciones multivariadas son
conocidas para p variables X1, X2,…, Xp. Sea ki la media de la variable Xk en
la población i-ésima, y asumiendo que la varianza de Xk tiene el mismo valor
Vk, en todas las poblaciones, se define a la distancia entre poblaciones y
muestras de Mahalanobis como:
)()(
1 1
2
sjsi
rs
rj
p
r
p
s
riijvD
Donde V(rs) es el elemento con renglón r-ésimo y columna s-ésima, de la
matriz inversa de covarianza para las variables p. También se puede escribir en
forma matricial como:
),.....,,('
),....,,('
21
21
p
pxxxx
pi
i
i
i
jijiijVD
.....
)()'(
2
1
12
i es el vector de medias para la población i-ésima y V es el vector de
covarianza. Una condición es que la V sea similar para todas las poblaciones.
La distancia de Mahalanobis se utiliza frecuentemente para medir la distancia
de una observación simple multivariada desde el centro de la población de la
que emerge la observación. También se puede interpretar como un residuo
respecto al centro, con la consideración de que si excede cierto valor se
investigue como punto aberrante.
Para el modelo discriminante, los vectores promedio de las m muestras pueden
ser considerados como estimados de los vectores promedio de los grupos.
Pueden calcularse las distancias de mahalanobis de individuos a centros de
grupos, y cada individuo puede ser asignado al grupo que le sea más cercano.
Dagoberto Salgado Horta Página 52
El grupo final puede ser diferente del grupo del que procede originalmente. El
porcentaje de asignación correcta es una indicación clara de que tan bien los
grupos pueden ser separados, usando las variables disponibles.
El procedimiento puede definirse de manera más clara como sigue:
El vector de valores promedio de la muestra del i-ésimo grupo es
),....,,('21 piii
xxxx
La matriz de covarianza para las muestras es:
pppp
p
p
ccc
ccc
ccc
C
....
.................
....
....
21
22221
11211
La distancia de Mahalanobis de una observación )',......,,('21 p
xxxx al centro
del grupo i se estima con:
)()'(12
iiixxCxxD
)()(
1 1
2
sis
rs
p
r
p
s
ririxxcxxD
Donde crs es el elemento den la r-ésima fila y la s-ésima columna de C-1. La
observación x es asignada al grupo para el cual Di2 tiene el valor más pequeño.
Funciones canónicas discriminantes
Es a veces útil poder determinar las funciones de las variables X’s que en
alguna forma separen los m grupos tan bien como sea posible. El método más
sencillo consiste en tomar una combinación lineal de las variables X:
ppXaXaXaZ ........
2211
Una forma de seleccionar los coeficientes a’s es seleccionar los que den la
mayor Fc en una ANOVA. Si se utiliza este método, se encuentran las
funciones canónicas discriminantes para cada observación i-ésima que no
están correlacionadas entre sí.
pipiiiXaXaXaZ ........
2211
Dagoberto Salgado Horta Página 53
La tabla ANOVA para una variable simple y m muestras es la siguiente:
Fuente de Suma de Grados de Cuadrado Medio F Variación cuadrados libertad Entre muestras B = T – W m -1 M1 = B/(m-1) M1/M2
Dentro
m
j
n
i
jij
j
xxW
1
2
1
)( n - m
de muestras
Total
m
j
n
i
ij
j
xxT
1
2
1
)( n – 1
jn Tamaño de la muestra j-ésima
n Número total de observaciones
ijx Es la observación i-ésima de la j-ésima muestra
jn
i j
ij
j n
xx
1
Media de la muestra j-ésima
m
j
n
i
ij
j
n
xx
1 1
Media global de todos los datos
El elemento en la fila r-ésima y columna c-ésima en la matriz T es:
))((
1 1
cijc
m
j
n
i
rijrrcxxxxt
j
El elemento en la r-ésima fila y c-ésima columna de la matriz W es:
))((
1 1
jcijc
m
j
n
i
jrijrrcxxxxw
j
Hallar los coeficientes de las funciones discriminantes canónicas se convierte
en un problema de eigenvalores. La matriz de variación dentro de la muestra W
y la matriz de suma de cuadrados total T se calculan con las ecuaciones
anteriores. Por tanto la matriz entre grupos se determina con:
B = T – W
Dagoberto Salgado Horta Página 54
Los eigenvalores y los eigenvectores se determinan con la matriz W-1B. Si los
eigenvalores 1>2>3>..s entonces i es la razón de la suma de cuadrados
entre grupos a la suma de cuadrados entre grupos para la i-ésima combinación
lineal, Zi, mientras que los elementos de los eigenvectores, a’i = (ai1, ai2,
ai3,…., aip), son los coeficientes de Zi.
Las funciones canónicas discriminantes Z1, Z2,…, Zp son combinaciones
lineales de las variables originales seleccionadas de tal forma que Z1 refleje
tanta diferencia de grupo como sea posible; Z2 capture tanta diferencia de
grupo como sea posible no mostrada por Z1; Z3 capture tanta diferencia de
grupo como sea posible que no sea mostrada por Z1 y Z2; etc. Se espera que
con las primeras funciones sea suficiente para acumular la mayor parte de las
diferencias de grupo. Si y solo si con las primeras dos variables se cumple esta
condición, se puede graficar la diferencia entre grupos, graficando las funciones
para los individuos de las muestras.
El número de variables canónicas es el mínimo entre el número de variables
(X’s) y el número de grupos menos uno (m – 1= 2). Para el análisis discrimínate
es necesario proporcionar el grupo al que pertenecen al inicio las
observaciones.
Para probar la significancia de la prueba, se puede utilizar el estadístico T2, de
Hottelling basado en el supuesto de normalidad y variabilidad similar dentro de
las muestras. Es decir que las muestras vengan de una distribución mutivariada
normal con matrices de covarianza similares.
Para probar si la función discriminante canónica Zj varía significativamente de
grupo a grupo se utiliza un estadístico Chi cuadrado.
Finalmente, se pueden analizar las distancias de Mahalanobis de las
observaciones a los centros de los grupos a ser examinados. Deben variar de
acuerdo a una distribución Chi cuadrada con p grados de libertad, si exceden el
Dagoberto Salgado Horta Página 55
valor crítico, se debe analizar si la observación realmente viene del grupo
asignado.
Dagoberto Salgado Horta Página 56
Ejemplo:
El porcentaje de personas empleadas en nueve diferentes sectores industriales
en Europa (Agr = agricultura; Min = minería; Man = Manufactura; Ps = Energía;
Con = Construcción; Ser = Servicios; Fin = Finanzas; Sps = Servicios sociales;
Tc = Transporte y comunicaciones).
No Grupo Ciudad Agr Min Man Ps Con Ser Fin Sps Tc
1 1 Bélgica 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2
2 1 Dinamarca 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1
3 1 Francia 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7
4 1 Alemania Occ. 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1
5 1 Irlanda 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1
6 1 Italia 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7
7 1 Luxenburgo 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2
8 1 Holanda 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8
9 1 Inglaterra 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4
10 1 Austria 12.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.0
11 1 Finlandia 13.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6
12 2 Grecia 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.7
13 1 Noruega 9.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4
14 2 Portugal 27.8 0.3 24.5 0.6 8.4 13.3 2.7 16.7 5.7
15 2 España 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5
16 1 Suecia 6.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.8
17 1 Suiza 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7
18 2 Turquía 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2
19 3 Bulgaria 23.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.7
20 3 Checa 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.0
21 3 Alemania Ori. 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4
22 3 Hungría 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.0
23 3 Polonia 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9
24 3 Rumania 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.0
25 3 Rusia 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3
26 3 Yugoslavia 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0
En este caso el número de variables canónicas es el mínimo entre el número de variables (8) y el número de grupos menos uno (m – 1= 2). Las variables canónicas se obtienen a continuación:
Las instrucciones de Minitab son las siguientes:
1 Cargar los datos a Minitab
2 Stat > Multivariate > Discriminant Analysis.
3 En Groups, poner SalmonOrigin.
4 En Predictors, poner Freshwater Marine. Click OK.
Dagoberto Salgado Horta Página 57
Los resultados se muestran a continuación:
Discriminant Analysis: Grupo versus Agr, Min, ... After subtracting group means,
Agr is highly correlated with other predictors.
After subtracting group means,
Man is highly correlated with other predictors.
After subtracting group means,
Sps is highly correlated with other predictors.
Linear Method for Response: Grupo
Predictors: Agr, Min, Man, Ps, Con, Ser, Fin, Sps
Group 1 2 3
Count 9 9 8
Summary of classification
True Group
Put into Group 1 2 3
1 8 1 0
2 1 8 0
3 0 0 8
Total N 9 9 8
N correct 8 8 8
Proportion 0.889 0.889 1.000
N = 26 N Correct = 24 Proportion Correct = 0.923
Squared Distance Between Groups
1 2 3
1 0.0000 9.4368 40.1385
2 9.4368 0.0000 20.4832
3 40.1385 20.4832 0.0000
Linear Discriminant Function for Groups
1 2 3
Constant -11171 -10821 -10678
Agr 221 218 217
Min 284 277 279
Man 211 208 207
Ps 371 369 371
Con 287 283 282
Ser 244 239 236
Fin 204 200 199
Sps 255 251 249
Means for Group
Variable Pooled Mean 1 2 3
Agr 19.131 9.533 23.044 25.525
Min 1.2538 1.0333 0.5556 2.2875
Man 27.008 27.167 24.522 29.625
Dagoberto Salgado Horta Página 58
Ps 0.90769 0.92222 0.78889 1.02500
Con 8.1654 8.4667 8.0556 7.9500
Ser 12.958 17.022 13.333 7.963
Fin 4.0000 5.0222 4.5667 2.2125
Sps 20.023 24.511 18.656 16.513
Pooled StDev for Group
Variable StDev 1 2 3
Agr 14.37 6.48 20.01 13.15
Min 0.6643 0.9000 0.2789 0.6600
Man 6.969 4.871 8.343 7.274
Ps 0.3788 0.2906 0.3855 0.4528
Con 1.699 1.117 2.346 1.330
Ser 2.749 1.638 3.997 1.869
Fin 2.630 1.767 2.215 3.681
Sps 6.148 4.524 7.664 5.803
Pooled Covariance Matrix
Agr Min Man Ps Con Ser Fin Sps
Agr 206.455
Min -1.471 0.441
Man -80.889 1.683 48.569
Ps -2.568 0.087 0.881 0.143
Con -13.191 0.029 6.269 0.042 2.887
Ser -31.181 0.336 11.763 0.576 2.076 7.555
Fin -3.479 -0.424 -1.216 0.220 -0.148 0.287 6.916
Sps -59.429 -0.748 9.607 0.424 1.082 6.397 -1.432
Sps 37.798
Covariance matrix for Group 1
Agr Min Man Ps Con Ser Fin Sps
Agr 42.053
Min -0.800 0.810
Man -15.359 2.522 23.727
Ps -0.067 0.040 -0.058 0.084
Con 0.856 -0.156 -1.376 -0.208 1.248
Ser -0.776 0.372 -0.809 0.012 0.920 2.684
Fin -8.537 -0.312 -0.272 0.074 -0.254 -0.432 3.122
Sps -14.949 -2.359 -8.052 0.100 -0.922 -2.050 5.906
Sps 20.466
Covariance matrix for Group 2
Agr Min Man Ps Con Ser Fin Sps
Agr 400.228
Min 1.336 0.078
Man -140.614 -0.459 69.609
Ps -5.808 0.021 2.090 0.149
Con -30.813 0.025 15.256 0.437 5.505
Ser -71.357 -0.288 25.528 1.149 4.945 15.978
Fin -31.392 0.048 12.865 0.438 3.830 3.179 4.908
Sps -98.810 -0.732 11.504 1.131 -0.771 16.029 4.981
Sps 58.735
Covariance matrix for Group 3
Agr Min Man Ps Con Ser Fin Sps
Agr 172.888
Min -5.445 0.436
Man -87.525 3.172 52.914
Dagoberto Salgado Horta Página 59
Ps -1.722 0.218 0.572 0.205
Con -9.106 0.245 4.734 -0.123 1.769
Ser -20.013 1.009 10.401 0.565 0.119 3.494
Fin 34.201 -1.093 -18.389 0.135 -4.574 -2.195 13.547
Sps -65.256 1.076 27.621 -0.013 5.491 5.042 -17.147
Sps 33.678
Summary of Misclassified Observations
True Pred Squared
Observation Group Group Group Distance Probability
4** 1 2 1 11.326 0.077
2 6.373 0.921
3 19.796 0.001
16** 2 1 1 5.350 0.944
2 10.989 0.056
3 35.747 0.000
Corrida con SPSS Discriminant
Warnings
Option ''SEPARATE'' means
classification using group
covariance matrices of the canonical
discriminant functions, not those of
the original variables. If there are
few er functions than variables, that
makes a difference.
Analysis Case Processing Summary
26 100.0
0 .0
0 .0
0 .0
0 .0
26 100.0
Unw eighted Cases
Valid
Missing or out-of-range
group codes
At least one missing
discriminating variable
Both missing or
out-of-range group codes
and at least one missing
discriminating variable
Total
Excluded
Total
N Percent
Dagoberto Salgado Horta Página 60
Group Statistics
9.5929 5.3626 14 14.000
.8500 .7743 14 14.000
27.6214 5.0773 14 14.000
.9571 .2875 14 14.000
8.4214 1.0401 14 14.000
16.6786 1.5783 14 14.000
5.1143 1.4206 14 14.000
24.0786 5.3738 14 14.000
39.7250 19.6736 4 4.000
.6000 .2160 4 4.000
19.6250 9.0205 4 4.000
.5000 .2708 4 4.000
7.7000 3.6102 4 4.000
9.9250 3.4760 4 4.000
3.6750 3.2908 4 4.000
12.8500 2.5981 4 4.000
25.5250 13.1487 8 8.000
2.2875 .6600 8 8.000
29.6250 7.2742 8 8.000
1.0250 .4528 8 8.000
7.9500 1.3299 8 8.000
7.9625 1.8693 8 8.000
2.2125 3.6806 8 8.000
16.5125 5.8033 8 8.000
19.1308 15.5466 26 26.000
1.2538 .9700 26 26.000
27.0077 7.0078 26 26.000
.9077 .3762 26 26.000
8.1654 1.6456 26 26.000
12.9577 4.5753 26 26.000
4.0000 2.8066 26 26.000
20.0231 6.8295 26 26.000
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
GRUPO
1.00
2.00
3.00
Total
Mean Std. Deviation Unw eighted Weighted
Valid N (listw ise)
Analysis 1 Summary of Canonical Discriminant Functions
Eigenvalues
11.347a 92.1 92.1 .959
.977a 7.9 100.0 .703
Function
1
2
Eigenvalue % of Variance Cumulative %
Canonical
Correlation
First 2 canonical discriminant functions w ere used in the
analysis.
a.
Dagoberto Salgado Horta Página 61
Wilks' Lambda
.041 62.301 16 .000
.506 13.290 7 .065
Test of Function(s)
1 through 2
2
Wilks'
Lambda Chi-square df Sig.
Standardized Canonical Discriminant Function Coefficients
3.690 .555
-.197 .551
2.038 .736
-.039 .357
.237 -.010
1.900 .025
1.047 .357
2.205 .970
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
1 2
Function
Structure Matrix
.630* .339
.157* -.032
-.243 -.737*
-.265 .592*
-.001 .551*
-.017 .544*
.229 .505*
.045 .103*
SER
FIN
AGR
MIN
PS
MAN
SPS
CON
1 2
Function
Pooled w ithin-groups correlations betw een discriminating
variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation w ithin function.
Largest absolute correlation betw een each variable and
any discriminant function
*.
Functions at Group Centroids
2.792 .264
-1.234 -2.150
-4.269 .613
GRUPO
1.00
2.00
3.00
1 2
Function
Unstandardized canonical discriminant
functions evaluated at group means
Dagoberto Salgado Horta Página 62
Group covariances of canonical discriminant functions
.867 -.168
-.168 .737
2.340 .242
.242 .726
.672 .209
.209 1.605
Function
1
2
1
2
1
2
GRUPO
1.00
2.00
3.00
1 2
The pooled w ithin-groups covariance matrix of the canonical
discriminant functions is an identity matrix by definition.
Box's Test of Equality of Covariance Matrices of Canonical Discriminant Functions
Log Determinants
2 -.492
2 .495
2 .035
2 .000
GRUPO
1.00
2.00
3.00
(identity matrix)
Rank
Log
Determinant
The ranks and natural logarithms of determinants
printed are those of the group covariance matrices
of the canonical discriminant functions.
Test Results
4.673
.629
6
707.141
.707
Box's M
Approx.
df1
df2
Sig.
F
Tests null hypothesis of equal population covariance
matrices of canonical discriminant functions.
Classification Statistics
Classification Processing Summary
26
0
0
26
Processed
Missing or out-of-range
group codes
At least one missing
discriminating variable
Excluded
Used in Output
Dagoberto Salgado Horta Página 63
Prior Probabilities for Groups
.538 14 14.000
.154 4 4.000
.308 8 8.000
1.000 26 26.000
GRUPO
1.00
2.00
3.00
Total
Prior Unw eighted Weighted
Cases Used in Analysis
Separate-Groups Graphs
Canonical Discriminant Functions
GRUPO = 1
Function 1
4.54.03.53.02.52.01.51.0
Fu
nc
tio
n 2
2.5
2.0
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
Group Centroid
Group Centroid
1
Canonical Discriminant Functions
GRUPO = 2
Function 1
1.0.50.0-.5-1.0-1.5-2.0-2.5
Fu
nc
tio
n 2
-1.0
-1.5
-2.0
-2.5
-3.0
-3.5
Group Centroid
Group Centroid
2
Dagoberto Salgado Horta Página 64
Canonical Discriminant Functions
GRUPO = 3
Function 1
-3.0-3.5-4.0-4.5-5.0-5.5
Fu
nc
tio
n 2
3
2
1
0
-1
-2
Group Centroid
Group Centroid
3
Canonical Discriminant Functions
Function 1
6420-2-4-6
Fu
nc
tio
n 2
3
2
1
0
-1
-2
-3
-4
GRUPO
Group Centroids
3
2
1
3
2
1
Classification Results a
14 0 0 14
0 4 0 4
0 0 8 8
100.0 .0 .0 100.0
.0 100.0 .0 100.0
.0 .0 100.0 100.0
GRUPO
1.00
2.00
3.00
1.00
2.00
3.00
Count
%
Original
1.00 2.00 3.00
Predicted Group Membership
Total
100.0% of original grouped cases correctly classif ied.a.
Dagoberto Salgado Horta Página 65
Territorial Map
Canonical Discriminant
Function 2
-6.0 -4.0 -2.0 .0 2.0 4.0 6.0
6.0 31
31
31
31
31
31
4.0 31
31
31
31
31
31
2.0 31
31
331
32221
* 332 21
322 21 *
.0 332 21
3322 21
322 21
332 21
322 21
332 21
-2.0 322 * 21
332 21
322 21
332 21
322 21
332 21
-4.0 322 21
332 21
22 21
21
21
21
-6.0 21
-6.0 -4.0 -2.0 .0 2.0 4.0 6.0
Canonical Discriminant Function 1
Symbols used in territorial map
Symbol Group Label
------ ----- --------------------
1 1
2 2
3 3
* Indicates a group centroid
Canonical Discriminant Functions
Function 1
6420-2-4-6
Func
tion
2
3
2
1
0
-1
-2
-3
-4
GRUPO
Group Centroids
3
2
1
3
2
1
Dagoberto Salgado Horta Página 66
Ejemplo:
Para regular la pesca de salmón, se desea identificar si el pescado es originario
de Alaska o de Canadá. Cincuenta peces de cada lugar de origen fueron
capturados y pesados cuando vivían en agua dulce y cuando vivieron en agua
salada. El objetivo es el de poder identificar si los nuevos pescados vienen de
criaderos en Alaska o Canadá. Los datos se muestran a continuación:
SalmonOrigin Freshwater Marine SalmonOrigin Freshwater Marine
Alaska 108 368 Canadá 129 420
Alaska 131 355 Canadá 148 371
Alaska 105 469 Canadá 179 407
Alaska 86 506 Canadá 152 381
Alaska 99 402 Canadá 166 377
Alaska 87 423 Canadá 124 389
Alaska 94 440 Canadá 156 419
Alaska 117 489 Canadá 131 345
Alaska 79 432 Canadá 140 362
Alaska 99 403 Canadá 144 345
Alaska 114 428 Canadá 149 393
Alaska 123 372 Canadá 108 330
Alaska 123 372 Canadá 135 355
Alaska 109 420 Canadá 170 386
Alaska 112 394 Canadá 152 301
Alaska 104 407 Canadá 153 397
Alaska 111 422 Canadá 152 301
Alaska 126 423 Canadá 136 438
Alaska 105 434 Canadá 122 306
Alaska 119 474 Canadá 148 383
Alaska 114 396 Canadá 90 385
Alaska 100 470 Canadá 145 337
Alaska 84 399 Canadá 123 364
Alaska 102 429 Canadá 145 376
Alaska 101 469 Canadá 115 354
Alaska 85 444 Canadá 134 383
Alaska 109 397 Canadá 117 355
Alaska 106 442 Canadá 126 345
Alaska 82 431 Canadá 118 379
Alaska 118 381 Canadá 120 369
Alaska 105 388 Canadá 153 403
Alaska 121 403 Canadá 150 354
Alaska 85 451 Canadá 154 390
Alaska 83 453 Canadá 155 349
Alaska 53 427 Canadá 109 325
Alaska 95 411 Canadá 117 344
Alaska 76 442 Canadá 128 400
Alaska 95 426 Canadá 144 403
Alaska 87 402 Canadá 163 370
Dagoberto Salgado Horta Página 67
Alaska 70 397 Canadá 145 355
Alaska 84 511 Canadá 133 375
Alaska 91 469 Canadá 128 383
Alaska 74 451 Canadá 123 349
Alaska 101 474 Canadá 144 373
Alaska 80 398 Canadá 140 388
Alaska 95 433 Canadá 150 339
Alaska 92 404 Canadá 124 341
Alaska 99 481 Canadá 125 346
Alaska 94 491 Canadá 153 352
Alaska 87 480 Canadá 108 339
Las instrucciones de Minitab son las siguientes:
1 Abrir la worksheet EXH_MVAR.MTW.
2 Stat > Multivariate > Discriminant Analysis.
3 En Groups, poner SalmonOrigin.
4 En Predictors, poner Freshwater Marine. Click OK.
Los resultados obtenidos se muestran a continuación: Discriminant Analysis: SalmonOrigin versus Freshwater, Marine Linear Method for Response: SalmonOrigin
Predictors: Freshwater, Marine
Group Alaska Canada
Count 50 50
Summary of classification
True Group
Put into Group Alaska Canada
Alaska 44 1
Canadá 6 49
Total N 50 50
N correct 44 49
Proportion 0.880 0.980
N = 100 N Correct = 93 Proportion Correct = 0.930
Squared Distance Between Groups
Alaska Canada
Alaska 0.00000 8.29187
Canada 8.29187 0.00000
Linear Discriminant Function for Groups
Alaska Canada
Constant -100.68 -95.14
Freshwater 0.37 0.50
Marine 0.38 0.33
Dagoberto Salgado Horta Página 68
Summary of Misclassified Observations
Squared
Observation True Group Pred Group Group Distance Probability
1** Alaska Canadá Alaska 3.544 0.428
Canadá 2.960 0.572
2** Alaska Canadá Alaska 8.1131 0.019
Canadá 0.2729 0.981
12** Alaska Canadá Alaska 4.7470 0.118
Canadá 0.7270 0.882
13** Alaska Canadá Alaska 4.7470 0.118
Canadá 0.7270 0.882
30** Alaska Canadá Alaska 3.230 0.289
Canadá 1.429 0.711
32** Alaska Canadá Alaska 2.271 0.464
Canadá 1.985 0.536
71** Canadá Alaska Alaska 2.045 0.948
Canadá 7.849 0.052
Interpretando los resultados
El Análisis Discriminante identificó correctamente 93 de los 100 peces, a pesar
de que la probabilidad de clasificar correctamente un pez de Alaska fue menor
(44/50 o 88%) que la probabilidad de clasificar correctamente un pez de
Canadá (49/50 o 98%). Para identificar el origen de un pez recientemente
capturado depende de cual valor discriminante sea mayor. Se puede correr el
análisis discriminante de nuevo y predecir a que grupo pertenecen las nuevas
observaciones.
El resumen de las observaciones mal clasificadas muestra la distancia al
cuadrado desde el punto mal clasificado a los centroides del grupo (vectores
medios) y las probabilidades posteriores. Las observaciones son asignadas al
grupo con la mayor probabilidad posterior.
Si en Options introducimos en Predict membership for: 100 130, la
clasificación aparece como:
Prediction for Test Observations
Squared
Observation Pred Group From Group Distance Probability
1 Canadá
Alaska 78.448 0.000
Canadá 55.194 1.000
Dagoberto Salgado Horta Página 69
El análisis discriminante involucra establecer una ―Variable (Variate)‖,
combinación lineal de dos o más variables independientes que discriminarán
mejor entre grupos definidos a priori. Se logra al poner los pesos de la
―variable‖ para cada variable de modo de maximizar la varianza entre grupos
respecto a la varianza dentro de los grupos. La ecuación de la función
discriminante toma la forma de:
nknkkjkXWXWXWaZ ....
2211
Donde:
Zjk = Valor Z discriminante de la función discriminante J para el objeto K.
a = Intersección en eje Y
Wi = Peso discriminante para la variable independiente i.
Xik = Variable independiente i para el objeto k.
La media de un grupo se denomina Centroide, que indica la localización típica
de cualquier individuo dentro de un grupo en particular y una comparación de
las centroides de los grupos muestra que tan alejados se encuentran en
relación a la dimensión considerada.
A B A B
Representación univariada de los valores Z de la función discriminante
Las áreas sombreadas son la probabilidad de clasificar erróneamente los objetos entre A y B
Ejemplo con HATCO:
Paso 1: Objetivos del análisis discriminante
Identificar las percepciones de HATCO que difieren significativamente entre
empresas que utilizan los métodos de compra: valor total de compra incluyendo
Dagoberto Salgado Horta Página 70
productos y servicios comprados y compra especificada donde se indican las
características deseadas del producto y del servicio.
Paso 2. Diseño de la investigación para el análisis discriminante
La variable dependiente es categórica con dos grupos, las variables
independientes son X1 a X7 y X11 con los métodos de compra de las
empresas.
La muestra es de 100 observaciones que supera el mínimo de muestras a
variables de 5 a 1, siendo de 10.
Se toma una muestra de 40 observaciones para validar el modelo y se utilizan
60 observaciones para la estimación.
Paso 3. Supuestos de la función discriminante
En la formación de la Variate debe haber normalidad, linealidad, y
multicolinealidad y la estimación de la función discriminante (matrices de
varianza y covarianza similares). Una prueba de igualdad de covarianza o
matrices de dispersión es la prueba M de Box.
Paso 4. Estimación del modelo discriminante y evaluación de ajuste
Ejemplo con datos de Hatco
El ejemplo siguiente utiliza las mismas variables que el análisis discriminante
anterior para estimar el modelo.
Utilizando los datos de HATCO, la muestra de 100 clientes se divide en dos
grupos, uno de 60 para análisis y otro de 40 para validación. La regresión
logística es más robusta ante el supuesto de igualdad de varianza covarianza.
Para el ejemplo se utilizan las 7 variables X1 a X7 teniendo como respuesta a
X11.
Instrucciones en Minitab:
Dagoberto Salgado Horta Página 71
1. Stat > Multivariate > Discriminant Analysis.
2. En Groups, poner X11.
3 En Predictors, poner X1 – X7.
4. Click OK.
Los resultados se muestran a continuación:
Discriminant Analysis: X11 versus X1, X2, X3, X4, X5, X6, X7 Linear Method for Response: X11
Predictors: X1, X2, X3, X4, X5, X6, X7
Group 0 1
Count 25 35
Summary of classification
True Group
Put into Group 0 1
0 24 2
1 1 33
Total N 25 35
N correct 24 33
Proportion 0.960 0.943
N = 60 N Correct = 57 Proportion Correct = 0.950
Squared Distance Between Groups
0 1
0 0.0000 10.9857
1 10.9857 0.0000
Linear Discriminant Function for Groups
0 1
Constant -55.092 -67.574
X1 12.813 16.539
X2 12.313 14.638
X3 7.780 10.158
X4 3.320 3.639
X5 -21.933 -26.874
X6 -2.326 -2.159
X7 4.389 2.657
Summary of Misclassified Observations
True Pred Squared
Observation Group Group Group Distance Probability
13** 0 1 0 6.238 0.474
1 6.032 0.526
17** 1 0 0 7.893 0.980
1 15.673 0.020
56** 1 0 0 4.753 0.841
1 8.078 0.159
Por medio de SPSS 1. Analize > Clasify > Discriminant
2. Grouping variable X11 (0:1) Independent variables X1 – X7
3. Statistics Univariate ANOVAs Box’s M
Dagoberto Salgado Horta Página 72
4. OK
Los resultados se muestran a continuación Tests of Equality of Group Means
Wilks' Lambda F df1 df2 Sig.
X1 .614 36.526 1 58 .000
X2 .716 22.953 1 58 .000
X3 .467 66.302 1 58 .000
X4 .997 .145 1 58 .704
X5 .993 .414 1 58 .523
X6 .991 .522 1 58 .473
X7 .528 51.951 1 58 .000
Como se puede observar son significativos X1, X2, X3 y X7.
La función discriminante es la siguiente:
Standardized Canonical Discriminant Function Coefficients
Function
1
X1 1.152
X2 .749
X3 .668
X4 .111
X5 -1.153
X6 .042
X7 -.626
La matriz estructural es la siguiente:
Structure Matrix
Function
1
X3 .643
X7 -.569
X1 .477
X2 -.379
X6 .057
X5 .051
X4 .030
Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.
Medias de grupos (centroides) de las funciones canónicas discriminantes:
Functions at Group Centroids
X11 Function
1
Dagoberto Salgado Horta Página 73
.00 -1.933
1.00 1.381
Unstandardized canonical discriminant functions evaluated at group means
Dagoberto Salgado Horta Página 74
Z=0
N=24 N=33
Zo=-1.933 Z1=1.063
Gráfica de los centroides de grupos
Paso 5. Validación del modelo
Con los 40 datos restantes se repite la corrida y se observa que los resultados
concuerden:
Tests of Equality of Group Means
Wilks' Lambda F df1 df2 Sig.
X1 .546 31.628 1 38 .000
X2 .934 2.676 1 38 .110
X3 .789 10.185 1 38 .003
X4 .969 1.205 1 38 .279
X5 .798 9.611 1 38 .004
X6 .997 .105 1 38 .748
X7 .535 33.043 1 38 .000
Log Determinants
X11 Rank Log Determinan
.00 7 -9.872
1.00 7 -6.987
Pooled within-groups 7 -6.367
The ranks and natural logarithms of determinants printed are those of the group covariance matrices. Test Results
Box's M 63.963
F Approx. 1.776
df1 28
df2 3061.289
Sig. .007
Tests null hypothesis of equal population covariance matrices. Standardized Canonical Discriminant Function Coefficients
Function
Dagoberto Salgado Horta Página 75
1
X1 1.932
X2 1.525
X3 .294
X4 -.621
X5 -1.698
X6 .934
X7 -.783
Structure Matrix
Function
1
X7 -.644
X1 .630
X3 .358
X5 .347
X2 -.183
X4 -.123
X6 -.036
Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. Functions at Group Centroids
X11 Function
1
.00 -1.822
1.00 1.093
Unstandardized canonical discriminant functions evaluated at group means
Prior Probabilities for Groups
.500 15 15.000
.500 25 25.000
1.000 40 40.000
X11
.00
1.00
Total
Prior Unw eighted Weighted
Cases Used in Analysis
Dagoberto Salgado Horta Página 76
-2 -1 0 1 2 3 4
0
1
2
3
4
5
Mean = 1.09Std. Dev. = 1.142N = 25
X11 = 1
Canonical Discriminant Function 1
-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0
0
1
2
3
4
5
Mean = -1.82Std. Dev. = 0.692N = 15
X11 = 0
Canonical Discriminant Function 1
Classification Results(a)
X11 Predicted Group Membership Total
.00 1.00
Original Count .00 15 0 15
1.00 3 22 25
% .00 100.0 .0 100.0
1.00 12.0 88.0 100.0
a 92.5% of original grouped cases correctly classified.
Dagoberto Salgado Horta Página 77
Regresión Logística
Una de las ventajas de la regresión logística versus el análisis discriminante es
que es menos afectada por las diferencias en varianzas / covarianzas entre los
grupos, que es una premisa del análisis discriminante. Otra ventaja es que la
regresión logística puede manejar variables independientes categóricas
fácilmente, mientras que en el análisis discriminante el uso de variables de
apoyo crea problemas con la igualdad de varianza / covarianza. Finalmente la
regresión logística es similar a la regresión múltiple en términos de su
interpretación e interpretación incluyendo los residuos.
Ejemplo:
Un investigador está interesado en comprender el efecto de fumar y el peso en
el pulso en reposo, como esta última variable dependiente es categórica (bajo,
alto) el análisis de regresión logística es adecuado.
Los datos utilizados son los siguientes:
RestingPulse Smokes Weight RestingPulse Smokes Weight RestingPulse Smokes Weight
Low No 140 Low No 215 Low No 115
Low No 145 Low Yes 150 Low No 102
Low Yes 160 Low Yes 145 Low No 115
Low Yes 190 Low No 155 Low No 150
Low No 155 Low No 155 Low No 110
Low No 165 Low No 150 High No 116
High No 150 Low Yes 155 Low Yes 108
Low No 190 Low No 150 High No 95
Low No 195 High Yes 180 High Yes 125
Low No 138 Low No 160 Low No 133
High Yes 160 Low No 135 Low No 110
Low No 155 Low No 160 High No 150
High Yes 153 Low Yes 130 Low No 108
Low No 145 Low Yes 155 Low No 155
Low No 170 Low Yes 150 Low No 180
Low No 175 Low No 148 Low No 122
Low Yes 175 High No 155 Low No 120
Low Yes 170 Low No 150 Low No 118
Low Yes 180 High Yes 140 Low No 125
Low No 135 Low Yes 190 High Yes 135
Low No 170 High No 145 Low No 125
Low No 157 High Yes 150 High No 118
Low No 130 Low Yes 164 High Yes 150
Low Yes 185 Low No 140 Low Yes 112
High No 140 Low No 142 Low No 125
Dagoberto Salgado Horta Página 78
Low No 120 High No 136 Low No 190
Low Yes 130 Low No 123 Low No 155
High No 138 Low No 155 Low Yes 170
High Yes 121 High No 130 Low No 145
Low No 125 Low No 120 High Yes 131
High No 116 Low No 130
Las instrucciones de Minitab para el ejemplo son:
1. Open worksheet EXH_REGR.MTW.
2. Seleccionar Stat > Regression > Binary Logistic Regression.
3. En Response, poner RestingPulse. En Model, poner Smokes Weight. En
Factors (optional), poner Smokes (para predictors categóricos).
4. Click Graphs. Seleccionar Delta chi-square vs probability and Delta chi-
square vs leverage. Click OK.
5. Click Results. Seleccionar In addition, list of factor level values, tests for
terms with more than 1 degree of freedom, y 2 additional goodness-of-fit tests.
6. Click OK en cada cuadro de diálogo.
Los resultados se muestran a continuación:
Results for: Exh_regr.MTW Binary Logistic Regression: RestingPulse versus Smokes, Weight Link Function: Logit
Observaciones que caen dentro de cada categoría Response Information Variable Value Count
RestingP Low 70 (Event) -> Evento de referencia High 22
Total 92
Factor Information
Factor Levels Values
Smokes 2 No Yes
Logistic Regression Table
Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Constant -1.987 1.679 -1.18 0.237
Smokes
Yes -1.1930 0.5530 -2.16 0.031 0.30 0.10 0.90
Weight 0.02502 0.01226 2.04 0.041 1.03 1.00 1.05
Por ser su P value menor a 0.05 son significativos Smoke y Weight
Dagoberto Salgado Horta Página 79
El coeficiente de -1.93 para Smoke representa el cambio estimado en el log de
P(low pulse)/P(high pulse) cuando el sujeto fuma comparado a cuando no
fuma, con el covariado Weight (peso) mantenido constante.
El coeficiente de 0.0250 para Weight (peso) es el cambio estimado en el log de
P(low pulse)/P(high pulse) con una unidad (lb.) de incremento en peso con el
factor Fumar constante.
A pesar de que hay evidencia de el parámetro de peso Weight no es cero, la
tasa de exceso es muy cercana a uno (1.03), indicando que un incremento de
peso de una libra tiene un efecto menor en la tasa de pulso en reposo de la
persona. Una diferencia más significativa se puede encontrar si se comparan
sujetos con una diferencia de peso mayor, por ejemplo 10 libras, la tasa cambia
a 1.28 (1.03 + 0.025*10), indicando que el puso de un sujeto con pulso bajo se
incrementa 1.28 veces con cada 10 libras de incremento de peso.
Para Smokes, el coeficiente negativo de -1.93 y la tasa de exceso de 0.30
indica que los sujetos que fuman tienden a tener una mayor tasa de pulso en
reposo (resting pulse rate) que los sujetos que no fuman. Dados sujetos con el
mismo peso, la tasa de exceso puede ser interpretada como el exceso de
fumadores en la misma muestra teineido un pulso bajo (low pulse) de 30% de
los no fumadores teniendo un pulso bajo (low pulse).
Log-Likelihood = -46.820
Test that all slopes are zero: G = 7.574, DF = 2, P-Value = 0.023
El estadístico G prueba la hipótesis nula de que los coeficientes asociados con
los predoctores son iguales a cero versus que esos coeficientes no todos son
cero. En es ejemplo con G = 7.574 y P value = 0.023, indican que hay
suficiente evidencia que al menos uno de los coeficientes es diferente de cero.
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 40.848 47 0.724
Deviance 51.201 47 0.312
Dagoberto Salgado Horta Página 80
Hosmer-Lemeshow 4.745 8 0.784
Brown:
General Alternative 0.905 2 0.636
Symmetric Alternative 0.463 1 0.496
Estas pruebas de bondad de ajuste con P values de 0.312 a 0.724 indican que
no hay evidencia suficiente que indique que el modelo no ajuste a los datos
adecuadamente, considerando un nivel de significancia de 0.05.
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Group
Value 1 2 3 4 5 6 7 8 9 10 Total
Low
Obs 4 6 6 8 8 6 8 12 10 2 70
Exp 4.4 6.4 6.3 6.6 6.9 7.2 8.3 12.9 9.1 1.9
High
Obs 5 4 3 1 1 3 2 3 0 0 22
Exp 4.6 3.6 2.7 2.4 2.1 1.8 1.7 2.1 0.9 0.1
Total 9 10 9 9 9 9 10 15 10 2 92
Esta tabla permite ver que tan bien ajusta el modelo a los datos, comparando
las frecuencias observadas y las frecuencias esperadas, siendo similares indica
que no hay evidencia suficiente de que los datos no ajusten bien al modelo,
soportado por las pruebas de bondad de ajuste para un nivel de significancia
de 0.05.
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 1045 67.9% Somers' D 0.38
Discordant 461 29.9% Goodman-Kruskal Gamma 0.39
Ties 34 2.2% Kendall's Tau-a 0.14
Total 1540 100.0%
Esta tabla muestra 1540 pares (70 individuos con un low pulse y 22 con high
pulse resultando en 70*22 = 1540) con valores de respuesta diferentes. Con
base en el modelo un par es concordante si el individuo con una tasa de pulso
baja (low pulse rate) tiene una más alta probabilidad de tener pulso bajo,
discrepante de si sucede lo contrario, y empate si las probabilidades son
iguales. En este ejemplo el 67.9% de los pares son concordantes y 29% son
discrepantes. Se pueden usar estos valores como una medición comparativa
de predicción, por ejemplo para comparar ajustes con diferentes conjuntos de
predictores o con funciones diferentes de enlace.
Dagoberto Salgado Horta Página 81
Se muestran resumenes de pares concordantes y discrepantes de Somers,
Goodman-Kriskal Gamma, y Tau de Kendall. Las métricas se encuentran entre
0 y 1 donde los valores mayores indican que el modelo tiene una mejor
habilidad predictiva. En este ejemplo el rango va de 0.14 a 0.39 que implica
una baja capacidad predictiva.
1.00.90.80.70.60.50.4
5
4
3
2
1
0
Probability
Delta
Chi-
Square
Delta Chi-Square versus Probability
0.160.110.060.01
5
4
3
2
1
0
Leverage
Delta
Chi-
Square
Delta Chi-Square versus Leverage
Las gráficas del ejemplo de Chi cuadrada versus probabilidad y versus
apalancamiento muestran que hay dos puntos que se desvían más allá del
límite sugerido de 3.84, indicando situaciones anormales que deben ser
investigadas.
Dagoberto Salgado Horta Página 82
Con la opción Editor > Brush se puede observar que corresponden a los
valores de datos 31 y 66, correspondientes a individuos con un pulso alto, que
no fuman, y que tienen pesos menores al promedio (116 y 136 libras).
Dagoberto Salgado Horta Página 83
8. Análisis de Conglomerados
Dagoberto Salgado Horta Página 84
8. ANÁLISIS DE CONGLOMERADOS
Se cuenta también con el análisis de conglomerados o clusters (técnica para
Agrupar los casos o elementos de una muestra en grupos con base en una o
Más variables).
Usar Análisis de componentes principales para ayudar a comprender la
estructura de datos y/o a formar un pequeño número de variables no
correlacionadas (por ejemplo para evitar multicolinealidad en la regresión).
El análisis de conglomerados agrupa individuos u objetos dentro de
conglomerados (―Clusters‖) de modo que los objetos en el mismo grupo tienen
características más similares que las que tienen versus otros grupos.
El ―Cluster Variate‖ es el conjunto de variables representando las
características utilizadas para comparar objetos en el análisis de
conglomerados. Es decir determina el ―carácter de los objetos‖. Es la única
técnica multivariada que no estima la ―variate‖ empíricamente sino que se
especifica por el investigador.
―Variate‖ es la combinación lineal de variables formadas en la técnica
multivariada al determinar empíricamente ponderaciones aplicadas al conjunto
de variables especificadas por el investigador.
El análisis de conglomerados también se ha denominado Análisis Q,
Construcción de tipología, Análisis de clasificación, y taxonomía numérica. Esto
debido al uso de estas técnicas en diversas áreas como la sicología, biología,
sociología, economía, ingeniería, y los negocios. El análisis de conglomerados
es parecido al análisis factorial en su propósito de evaluar la estructura. Pero el
análisis de conglomerados difiere del análisis factorial en que agrupa objetos,
mientras que el análisis factorial se enfoca principalmente a agrupar variables.
Dagoberto Salgado Horta Página 85
El análisis de conglomerados puede hacer reducciones de datos colectados de
cuestionarios en una población, a información relacionada con pequeños
subgrupos específicos. No tiene bases estadísticas sobre las que se puedan
realizar inferencias estadísticas de una muestra a una población, su uso es
principalmente como técnica exploratoria. Las soluciones no son únicas y se
pueden obtener diversas soluciones variando uno o más elementos del
procedimiento.
A. Conglomerados de observaciones
Usar conglomerados de observaciones para clasificar observaciones en
grupos, cuando inicialmente los grupos son desconocidos.
Este procedimiento utiliza un método jerárquico aglomerativo que inicia con
todas las observaciones separadas, cada una formando su propio
conglomerado. Como primer paso, las dos observaciones más cercanas se
unen. En un siguiente paso, ya sea que se adicione una tercera observación a
las primeras dos, o dos observaciones diferentes se unan en un conglomerado
(cluster) diferente. Este proceso continúa hasta que todos los conglomerados
se han unido en uno, sin embargo este último no es útil para propósitos de
clasificación.
¿Cómo funciona el análisis de conglomerados?
Se ilustra con un ejemplo con datos bivariados.
Suponer que un estudio de mercado trata de determinar segmentos de
mercado en base a los patrones de lealtad de marcas (V1) y tiendas (V2),
medidas del 0 al 10 en 7 personas (A-G).
Variables V1 V2
A 3 2
B 4 5
C 4 7
D 2 7
E 6 6
F 7 7
Dagoberto Salgado Horta Página 86
G 6 4
V1
V2
765432
7
6
5
4
3
2
G
F
E
D C
B
A
Scatterplot of V2 vs V1
Para acomodar en grupos se necesita contestar:
¿Cómo se mide la similaridad?, se puede hacer por correlación o
proximidad en un espacio de dos dimensiones.
¿Cómo se forman los conglomerados?
¿Cuántos grupos se formarán?
Ejemplo 1:
Para medir la similitud se evalúa la distancia euclidiana (línea recta) entre cada
par de observaciones (ver Tabla), entendiendo que las distancias pequeñas
indican similaridad, E y F son las más similares (1.414) y la A y F las más
diferentes (6.403).
Observ. A B C D E F G
A
B 3.162
C 5.099 2.000
D 5.099 2.828 2.000
E 5.000 2.236 2.236 4.123
F 6.403 3.606 3.000 5.000 1.414
Distancia euclidiana de A a B
Dagoberto Salgado Horta Página 87
G 3.606 2.236 3.606 5.000 2.000 3.162
Formamos conglomerados ahora con un Procedimiento jerárquico
moviéndose paso a paso para formar un rango completo de soluciones.
También se denomina Método Aglomerativo dado que los conglomerados se
forman con la combinación de conglomerados existentes.
La distancia entre observaciones es:
Paso Distancia Mínima entre observaciones
Par observado
Miembros en el conglomerado
No. de Conglomerado
Distancia Promedio dentro del Conglomerado
Sol. inicial A, B,C,D,E,F,G 7 0
1 1.414 E-F A, B,C,D,E-F,G 6 1.414
2 2.000 E-G A, B,C,D,E-F-G 5 2.192
3 2.000 C-D A, B,C-D,E-F-G 4 2.144
4 2.000 B-C A, B-C-D,E-F-G 3 2.234
5 2.236 B-E A,B-C-D-E-F-G 2 2.896
6 3.162 A=B A-B-C-D-E-F-G 1 3.420
Utilizando Minitab:
Stat > Multivariate Análisis > Cluster Observations
Distance Measured Euclidean Seleccionar Show Dendogram OK
Observations
Dis
tan
ce
7654321
3.16
2.11
1.05
0.00
Dendrogram with Single Linkage and Euclidean Distance
Dagoberto Salgado Horta Página 88
Observations
Sim
ilari
ty
GFEDCBA
50.61
67.08
83.54
100.00
Proceso de jerarquía de conglomerados
La similaridad s(ij) entre dos conglomerados i, j se determina como:
)/)(1(100)(max
dijdijs
Donde Dmax = 6.403 S(E,F) = 100(1 – 1.4142/ 6.403 ) = 77.913 S(C,D) = 100(1 – 2/6.403) = 68.7646 Cluster Analysis of Observations: V1, V2 Euclidean Distance, Single Linkage
Amalgamation Steps
Number
Number of obs.
of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 6 77.9137 1.41421 5 6 5 2
2 5 68.7652 2.00000 5 7 5 3
3 4 68.7652 2.00000 3 4 3 2
4 3 68.7652 2.00000 2 3 2 3
5 2 65.0785 2.23607 2 5 2 6
6 1 50.6135 3.16228 1 2 1 7
Final Partition
Number of clusters: 1
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 7 41.4286 2.23187 3.77154
Ejemplo 2:
Con los datos de HATCO se utilizan las siete percepciones de clientes para
identificar segmentos de clientes.
Dagoberto Salgado Horta Página 89
Paso 1: Objetivos del análisis de conglomerados
El objetivo es segmentar objetos (clientes) en grupos con percepciones
similares (X1 a X7). Una vez identificados, se pueden aplicar diferentes
estrategias para cada grupo.
X1 = Rapidez de entrega
X2 = Nivel de precio
X3 = Flexibilidad de precio
X4 = Imagen del fabricante
X5 = Servicio en general
X6 = Imagen de la fuerza de ventas
X7 = Calidad del producto
Paso 2. Diseño del análisis de conglomerados
Se identifica si no hay puntos aberrantes en los datos. Se selecciona la medida
de similaridad, en este caso la distancia euclidiana al cuadrado. Si se observa
multicolinealidad que afecte a las ponderaciones de las variables, entonces se
puede utilizar la distancia de Mahalanobis (D2). La estandarización de variables
no es importante dado que tienen valores parecidos.
Paso 3. Supuestos en el análisis de conglomerados
Para el análisis se considera que los datos de la muestra representan a la
población de clientes de HATCO. Queda pendiente el efecto de la
multicolinealidad en la ponderación implícita de los resultados.
Paso 4. Establecer conglomerados y evaluar el ajuste al modelo
Con Minitab:
1. Stat > Multivariate > Cluster observations
2. Variables or distance matrix X1 – X7
3. Linkage method Ward (minimiza la distancia dentro de los
conglomerados)
4. Distance Measure Squared Euclidean
5. Seleccionar Show Dendogram
6. Customize Label Y axis with Distances
Dagoberto Salgado Horta Página 90
7. OK
Los resultados se muestran a continuación:
Cluster Analysis of Observations: X1, X2, X3, X4, X5, X6, X7 Squared Euclidean Distance, Ward Linkage
Amalgamation Steps
Number
Number of obs.
of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 99 100.000 0.000 15 20 15 2
2 98 99.987 0.010 5 42 5 2
3 97 99.987 0.010 24 27 24 2
4 96 99.975 0.020 47 61 47 2
5 95 99.949 0.040 19 28 19 2
6 94 99.924 0.060 67 90 67 2
7 93 99.912 0.070 36 41 36 2
8 92 99.912 0.070 51 77 51 2
9 91 99.912 0.070 18 92 18 2
10 90 99.912 0.070 33 62 33 2
11 89 99.874 0.100 25 44 25 2
12 88 99.874 0.100 85 87 85 2
13 87 99.874 0.100 43 46 43 2
14 86 99.836 0.130 38 63 38 2
15 85 99.798 0.160 69 81 69 2
16 84 99.760 0.190 50 72 50 2
17 83 99.760 0.190 56 91 56 2
18 82 99.760 0.190 94 98 94 2
19 81 99.722 0.220 1 95 1 2
20 80 99.722 0.220 16 73 16 2
21 79 99.722 0.220 75 99 75 2
22 78 99.722 0.220 37 48 37 2
23 77 99.684 0.250 11 100 11 2
24 76 99.646 0.280 4 89 4 2
25 75 99.646 0.280 84 88 84 2
26 74 99.646 0.280 23 32 23 2
27 73 99.646 0.280 2 83 2 2
28 72 99.646 0.280 29 78 29 2
29 71 99.646 0.280 3 71 3 2
30 70 99.520 0.380 17 64 17 2
31 69 99.457 0.430 8 68 8 2
32 68 99.457 0.430 12 76 12 2
33 67 99.330 0.530 9 74 9 2
34 66 99.267 0.580 52 60 52 2
35 65 99.153 0.670 10 34 10 2
36 64 99.115 0.700 26 59 26 2
37 63 98.939 0.840 49 97 49 2
38 62 98.812 0.940 7 67 7 3
39 61 98.686 1.040 13 21 13 2
40 60 98.673 1.050 40 54 40 2
41 59 98.673 1.050 82 93 82 2
42 58 98.656 1.063 10 30 10 3
43 57 98.648 1.070 66 80 66 2
44 56 98.591 1.115 36 84 36 4
45 55 98.332 1.320 6 70 6 2
46 54 97.902 1.660 45 86 45 2
47 53 97.877 1.680 39 96 39 2
48 52 97.761 1.772 10 53 10 4
49 51 97.321 2.120 13 35 13 3
50 50 96.355 2.885 50 69 50 4
51 49 96.203 3.005 40 45 40 4
52 48 95.986 3.177 14 38 14 3
53 47 95.818 3.310 9 58 9 3
54 46 95.552 3.520 22 55 22 2
55 45 95.325 3.700 65 79 65 2
56 44 94.826 4.095 10 31 10 5
Dagoberto Salgado Horta Página 91
57 43 94.301 4.510 6 52 6 4
58 42 94.054 4.706 10 37 10 7
59 41 93.996 4.751 14 66 14 5
60 40 93.783 4.920 15 19 15 4
61 39 93.745 4.950 16 29 16 4
62 38 93.594 5.070 4 75 4 4
63 37 92.867 5.645 25 33 25 4
64 36 92.341 6.062 25 26 25 6
65 35 91.633 6.622 18 50 18 6
66 34 90.732 7.335 23 56 23 4
67 33 90.566 7.466 9 12 9 5
68 32 89.797 8.075 11 85 11 4
69 31 89.607 8.225 8 36 8 6
70 30 88.621 9.005 1 51 1 4
71 29 88.537 9.072 13 22 13 5
72 28 87.859 9.608 40 94 40 6
73 27 87.621 9.797 4 24 4 6
74 26 86.484 10.697 3 10 3 9
75 25 86.381 10.778 18 43 18 8
76 24 86.216 10.909 7 15 7 7
77 23 85.195 11.717 16 47 16 6
78 22 85.001 11.870 39 65 39 4
79 21 82.841 13.580 3 57 3 10
80 20 82.550 13.810 9 14 9 10
81 19 81.104 14.954 9 49 9 12
82 18 77.848 17.531 2 4 2 8
83 17 76.996 18.205 8 17 8 8
84 16 67.541 25.688 1 25 1 10
85 15 65.781 27.081 2 40 2 14
86 14 61.257 30.661 7 9 7 19
87 13 60.778 31.040 11 23 11 8
88 12 56.202 34.662 6 8 6 12
89 11 49.784 39.741 2 39 2 18
90 10 42.640 45.395 3 82 3 12
91 9 40.362 47.197 1 18 1 18
92 8 36.171 50.514 1 16 1 24
93 7 29.104 56.107 6 11 6 20
94 6 19.593 63.634 5 7 5 21
95 5 17.930 64.950 1 13 1 29
96 4 -15.826 91.665 2 6 2 38
97 3 -96.701 155.669 2 3 2 50
98 2 -135.645 186.489 1 5 1 50
99 1 -839.878 743.820 1 2 1 100
Final Partition
Number of clusters: 1
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 100 996.352 3.05166 5.27503
Dagoberto Salgado Horta Página 92
Observations
Dis
tan
ce
938 231641757483753303410713796596399894864554402 724894888 441366886 052706915 6322399758 322819149 0677425623359264425816972504643921 8782973168 0666338201 5587612974 974955223 5211361478 785100117751951
406.13
270.75
135.38
0.00
Proceso de jerarquía de conglomerados
Observations
Dis
tan
ce
938231641757483753303410713796596399894864554402724894888441366886052706915632239975832
406.13
270.75
135.38
0.00
Proceso de jerarquía de conglomerados
Dagoberto Salgado Horta Página 93
Observations
Dis
tan
ce
281914906774256233592644258169725046439218782973168066633820155876129749749552235211361478785100117751951
406.13
270.75
135.38
0.00
Proceso de jerarquía de conglomerados
B. Conglomerado de observaciones por K-Medias
Esta opción se utiliza de manera similar al conglomerado de observaciones,
para clasificar observaciones en grupos cuando no se conocen al inicio. Este
procedimiento utiliza la formación de conglomerados no jerárquicos de
observaciones de acuerdo al algoritmo de MacQueen.1 El algoritmo funciona
mejor cuando hay suficiente información disponible para hacer asignaciones
iniciales de conglomerados adecuadas.
El procedimiento de conglomerado por K medias inicia al agrupar
observaciones en un número de conglomerados predefinidos.
1. Se evalúa cada observación, moviéndola al conglomerado más cercano, que
es el que tiene la distancia euclidiana más pequeña entre la observación y el
centroide del conglomerado.
1 R. Johnson and D. Wichern (1992). Applied Multivariate Statistical Methods, Third Edition. Prentice
Hall.
Dagoberto Salgado Horta Página 94
2. Cuando cambia el conglomerado, al ganar o perder alguna observación, se
recalcula el centroide del conglomerado.
3. El proceso se repite hasta que no haya más observaciones a mover dentro
de un conglomerado diferente. De esta manera, todas las observaciones están
en su conglomerado más cercano. De modo diferente a la clasificación
jerárquica, es posible que dos observaciones sean partidas en conglomerados
diferentes después de que hayan reunido.
El procedimiento de K medias trabaja mejor cuando se proporcionan puntos de
arranque para los conglomerados adecuados, hay dos formas de hacerlo:
Especificando un número de conglomerados o
Proporcionando una columna de partición inicial que contenga códigos
de grupos.
Suponiendo que se sabe que la partición final consistirá de tres grupos, y que
las observaciones 2, 5 y 9 pertenecen a esos grupos respectivamente. Para
proceder depende de si se especifica el número de conglomerados o se
proporciona una columna de partición.
Si se especifica el número de conglomerados, los datos deben
acomodarse de manera que las observaciones 2, 5 y 9 se encuentren al
principio de la hoja de trabajo, y especificar 3 como número de
conglomerados (Number of clusters).
Si se especifica una columna inicial de partición, no es necesario
acomodar los datos. En la columna de partición inicial de la hoja de
trabajo, poner los números de grupo 1, 2, y 3, para las observaciones 2,
5, y 9 respectivamente y cero para las otras observaciones.
La partición final depende en gran modo de la partición inicial utilizada, se
pueden intentar diferentes particiones.
Ejemplo:
Dagoberto Salgado Horta Página 95
Se atrapan, anestesian, y miden ciento cuarenta y tres osos negros. Las
mediciones son altura y longitud de la cabeza (Lenght, Head L), peso total y
peso de la cabeza (Weight, Weight H.), dimensión del cuello y del cachete
(Neck G., Chest G.).
Se desea clasificar los 143 osos, como pequeños, de tamaño medio, o
grandes. Se sabe que el segundo, setenta y ochoavo, y quincuagésimo (15)
oso de la muestra es típico de esas categorías respectivas.
Se crea la columna de partición inicial con los tres osos semilla, designados
como: 1 = pequeño, 2= tamaño medio y 3= grande y los remanentes osos
como cero (desconocidos) para indicar membresía inicial del conglomerado.
Después se realiza un análisis de conglomerado por K medias y se guardan las
membresías del conglomerado en cada columna denominada BearSize.
Los datos se muestran a continuación:
No. Head.L Head.W Neck.G Length Chest.G Weight BearSize No. Head.L Head.W Neck.G Length Chest.G Weight BearSize
1 10 5 15 45 23 65 1 73 15.5 7 28 76.5 55 446 3
2 11 6.5 20 47.5 24 70 1 74 9 5 15 46 27 62 1
3 12 6 17 57 27 74 1 75 14.5 7 23 61.5 44 236 2
4 12.5 5 20.5 59.5 38 142 2 76 13.5 8.5 23 63.5 44 212 2
5 12 6 18 62 31 121 2 77 18.5 8.5 23.5 67.5 42 204 3
6 11 5.5 16 53 26 80 1 78 15 7 26 65 40 224 2
7 12 5.5 17 56 30.5 108 1 79 10 4 15.5 48 26 60 1
8 16.5 9 28 67.5 45 344 3 80 10 5 15 41 26 64 1
9 16.5 9 27 78 49 371 3 81 13 7 21 59 34 146 2
10 15.5 8 31 72 54 416 3 82 15.5 6 20.5 60 35 152 2
11 16 8 32 77 52 432 3 83 15.5 9 29 79 50 400 3
12 17 10 31.5 72 49 348 3 84 13.5 7 24.5 62 41 248 2
13 15.5 7.5 32 75 54.5 476 3 85 14.5 6.5 26 70.5 41 278 3
14 17.5 8 32 75 55 478 3 86 15 7 26.5 69 46.5 297 3
15 15 9 33 75 49 386 3 87 16 9 31.5 75 47 350 3
16 15.5 6.5 22 62 35 166 2 88 11.5 5 17 53 30.5 114 1
17 13 7 21 70 41 220 2 89 11.5 5 15 52.5 28 76 1
18 15 6.5 28 78 45 334 3 90 11 4.5 13 46 23 48 1
19 15 7.5 26.5 73.5 41 262 3 91 12 6 19 57 34.5 148 2
20 13.5 8 27 68.5 49 360 3 92 13.5 5 17 58 29 114 1
21 15.5 7 29.3 76 53 416 3 93 13.5 5 17 58 29.5 116 1
22 13.5 7 20 64 38 204 2 94 12.5 7.5 19 60 34 158 2
23 12.5 6 18 58 31 144 2 95 14 6.5 21 63 35 198 2
24 12 8.3 18.5 60.3 32 122 2 96 12 5 19 58.5 33.5 114 1
25 16 9 29 73 44 332 3 97 13 6 17.5 61 33 135 2
Dagoberto Salgado Horta Página 96
26 9 4.5 13 37 19 34 1 98 13.5 5 17 58 29 130 1
27 12.5 4.5 10.5 63 32 140 1 99 12.5 6.5 18 60 30 130 2
28 14 5 21.5 67 37 180 2 100 13.5 6.5 22 64 36 190 2
29 11.5 5 17.5 52 29 105 1 101 14.5 6.5 21.5 64 37 180 2
30 13 8 21.5 59 33 166 2 102 12 6.5 18.5 55.5 27.5 110 1
31 13.5 7 24 64 39 204 2 103 13 6 19.5 61.5 31 140 2
32 14.5 7.5 26.5 66 40 250 3 104 13.5 6 20 63.5 33 144 2
33 9 4.5 12 36 19 26 1 105 13.5 6 20 64 35 160 2
34 13 6 19 59 30 120 2 106 13.5 6.5 22 66.5 35 184 2
35 13 6 19 59 30 114 2 107 11 5 15.5 48.5 25.5 79 1
36 13.5 6.5 23 66.5 38 210 2 108 14.5 6 22.5 67 40 216 2
37 16 9.5 30 72 48 436 3 109 15 8 26.5 71 42.5 302 3
38 12.5 5 19 57.5 32 125 1 110 12 6 19 53.5 32 122 1
39 12.5 6 19 57 34 152 2 111 17 9 29.5 70 45.5 322 3
40 12.5 6.5 19.5 61 36 176 2 112 15.5 8 27 70 47 308 3
41 13 5 20 61 33 132 2 113 15.5 8 20 63 33 154 2
42 13.5 5 18.5 57 35 180 2 114 12 6 18 66.5 34 146 2
43 13 5 17 54 28 90 1 115 13 5.5 19.5 64 35 162 2
44 13 5.5 20.5 57.8 34.5 140 2 116 17.5 8 30 83 49 396 3
45 10 4 13 40 23 40 1 117 13 5 18 55.5 30.5 122 1
46 16 6 24 63 42 220 2 118 13 5.5 19.5 55 32.5 126 2
47 10 4 13.5 43 23 46 1 119 13 6 20.5 57 34 146 2
48 11 5 15 45 25 60 1 120 13 5.5 19.5 61.5 37 156 2
49 13.5 6 22 66.5 34 154 2 121 12.5 6 19.5 58.5 32 142 2
50 13 5.5 17.5 60.5 31 116 2 122 10 4.5 10 43.5 24 29 1
51 13 6.5 21 60 34.5 182 2 123 16.5 8.5 29.5 69 49.5 348 3
52 14.5 5.5 20 61 34 150 2 124 17 8.5 30.5 79.5 48.5 368 3
53 14 6.5 26 65 39 180 2 125 12 5.5 18 54.5 32 116 1
54 13 6 20 63 35 172 2 126 13 6 19 59 34 130 2
55 13.5 6 21 59.5 32.5 150 2 127 14 7 21 66.5 37 160 2
56 11 4 16 50.5 28 90 1 128 13 6.5 20.5 60 36.5 154 2
57 9.5 4.5 16 40 26 65 1 129 16 7.5 28 73 45 316 3
58 13.5 6.5 28 64 48 356 3 130 13.5 5.5 19.5 61 35 158 2
59 14.5 6.5 26 65 48 316 3 131 12.5 5.5 19 56 32 120 1
60 13.5 5.5 19 60.5 34 148 2 132 15.5 8 30.5 75 54 514 3
61 11.5 5.5 17.5 52.5 30 104 1 133 15.5 7.5 25.5 73.5 43 324 3
62 11 5 17 49 29 94 1 134 14.5 7 22 67.5 38 196 2
63 11.5 5 17 47 29.5 86 1 135 12.5 8.5 18 57.3 32.8 140 2
64 13 7 21 59 35 150 2 136 12 5 18 56 32.5 114 1
65 13.5 6 21 64 35 166 2 137 12 5.5 15 51 24 82 1
66 16.5 6.5 27 72 44.5 270 3 138 13 6 22 61 40 230 2
67 14 5.5 24 65 39 202 2 139 15.5 6 23 69 42.5 290 2
68 13.5 6.5 21.5 63 40 202 2 140 15.5 6 23 69 42.5 289 2
69 15.5 7 28 70.5 50 365 3 141 12 4 17.5 59 28.5 128 1
70 11.5 6 16.5 48 31 79 1 142 13.5 6 20 62 32.5 156 2
71 11.5 5 17 50.5 28 90 1 143 16.5 6.5 30 72 49 398 3
Las instrucciones de Minitab son las siguientes:
1 Open worksheet BEARS.MTW.
Dagoberto Salgado Horta Página 97
2 Para crear la columna de partición inicial, seleccionar Calc > Make
Patterned Data > Simple Set of Numbers.
3 En Store patterned data in, nombrar Inicial a la columna de
almacenamiento.
4 En From first value y From last value, poner 0.
5 En List each value, poner 143. Click OK.
6 Ir a la ventana de datos y poner 1, 2, y 3 en los renglones 2, 78 y 15
respectivamente en la columna Inicial.
7 Seleccionar Stat > Multivariate > Cluster K-Means.
8 En Variables, seleccionar 'Head.L'-Weight.
9 En Specify Partition by, seleccionar Initial partition column e Inicial.
10 Seleccionar Standardize variables.
11 Seleccionar Storage. en Cluster membership column, seleccionar
BearSize.
12 Click OK en cada uno de los cuadros de diálogo
Los resultados se muestran a continuación:
Session window output
K-means Cluster Analysis: Head.L, Head.W, Neck.G, Length,
Chest.G, Weight
Standardized Variables
Final Partition
K medias clasifica a los 143 osos de la forma siguiente:
Number of clusters: 3
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 41 63.075 1.125 2.488
Cluster2 67 78.947 0.997 2.048
Cluster3 35 65.149 1.311 2.449
Cluster Centroids
Grand
Dagoberto Salgado Horta Página 98
Variable Cluster1 Cluster2 Cluster3 centroid
Head.L -1.0673 0.0126 1.2261 -0.0000
Head.W -0.9943 -0.0155 1.1943 0.0000
Neck.G -1.0244 -0.1293 1.4476 -0.0000
Length -1.1399 0.0614 1.2177 0.0000
Chest.G -1.0570 -0.0810 1.3932 -0.0000
Weight -0.9460 -0.2033 1.4974 -0.0000
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3
Cluster1 0.0000 2.4233 5.8045
Cluster2 2.4233 0.0000 3.4388
Cluster3 5.8045 3.4388 0.0000
En general, un conglomerado con una suma de cuadrados pequeña es más
compacto que otro con una suma más grande. El centroide es el vector de
medias de variables de las observaciones en ese conglomerado y se usa como
el punto central del conglomerado
La columna BearSize contiene la designación del conglomerado.
Dagoberto Salgado Horta Página 99
Ejemplo de HATCO:
De Minitab con soluciones por grupos de Conglomerados:
1. Stat > Multivariate > Cluster K Means
2. Variables or distance matrix X1 – X7
3. Number of clusters 2 o 4
4. OK
Solución por dos conglomerados
K-means Cluster Analysis: X1, X2, X3, X4, X5, X6, X7 Final Partition
Number of clusters: 2
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 52 315.799 2.383 4.285
Cluster2 48 294.132 2.368 4.279
Cluster Centroids Grand
Variable Cluster1 Cluster2 centroid
X1 4.3827 2.5750 3.5150
X2 1.5808 3.2125 2.3640
X3 8.8615 6.8458 7.8940
X4 4.9250 5.5979 5.2480
X5 2.9577 2.8708 2.9160
X6 2.5250 2.8167 2.6650
X7 5.9038 8.1271 6.9710
Distances Between Cluster Centroids
Cluster1 Cluster2
Cluster1 0.0000 3.9347
Cluster2 3.9347 0.0000
En esta solución se observa que en el grupo o cluster 1 versus cluster 2, X1 y
X3 son mayores.
En el caso de las variables X2, X4, X6 y X7 tienen valores más altos en el
cluster 2 que en el cluster 1. X5 no muestra diferencia significativa. Por tanto se
sugieren dos segmentos, evaluados desde un punto de vista conceptual y
práctico.
Corriendo con SPSS se tiene:
Dagoberto Salgado Horta Página 100
1. Analyze > Clasify > K Jeans Clusters
2. Variables X1 – X7
3. Number of clusters 2
4. OK
ANOVA
Cluster Error F Sig.
Mean Square df Mean Square df
X1 81.563 1 .930 98 87.717 .000
X2 66.457 1 .766 98 86.753 .000
X3 101.414 1 .923 98 109.816 .000
X4 11.302 1 1.178 98 9.596 .003
X5 .188 1 .568 98 .331 .566
X6 2.123 1 .579 98 3.670 .058
X7 123.372 1 1.280 98 96.404 .000
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
Solución por cuatro conglomerados
K-means Cluster Analysis: X1, X2, X3, X4, X5, X6, X7 Final Partition
Number of clusters: 4
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 34 155.126 2.100 2.922
Cluster2 29 123.693 2.012 3.211
Cluster3 14 54.234 1.833 3.051
Cluster4 23 109.941 2.031 3.947
Cluster Centroids
Grand
Variable Cluster1 Cluster2 Cluster3 Cluster4 centroid
X1 4.1441 2.0241 3.6143 4.4043 3.5150
X2 1.5794 2.7655 4.1286 1.9435 2.3640
X3 8.5765 7.0103 5.9500 9.1826 7.8940
X4 4.4176 5.1621 6.0643 6.0870 5.2480
X5 2.8353 2.3655 3.8429 3.1652 2.9160
X6 2.0882 2.5552 3.1643 3.3522 2.6650
X7 5.3147 8.2690 7.9500 7.1870 6.9710
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3 Cluster4
Cluster1 0.0000 4.2514 5.0504 2.9268
Cluster2 4.2514 0.0000 2.9967 3.7896
Cluster3 5.0504 2.9967 0.0000 4.1141
Cluster4 2.9268 3.7896 4.1141 0.0000
Dagoberto Salgado Horta Página 101
El Cluster 3 es mucho más compacto que el cluster 1, como se indica por la
suma de cuadrados.
En este caso se muestra en forma más clara un grupo de patrones con valores
altos y otro con valores bajos.
Corriendo con SPSS se tiene:
5. Analyze > Clasify > K Jeans Clusters
6. Variables X1 – X7
7. Number of clusters 4
OK
ANOVA
Cluster Error F Sig.
Mean Square df Mean Square df
X1 37.108 3 .639 96 58.055 .000
X2 28.530 3 .583 96 48.960 .000
X3 37.115 3 .839 96 44.224 .000
X4 15.527 3 .835 96 18.598 .000
X5 7.487 3 .348 96 21.509 .000
X6 8.242 3 .355 96 23.204 .000
X7 53.222 3 .928 96 57.330 .000
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
C. Conglomerados por variables
Usar conglomerados por variables para clasificar variables en grupos, cuando
son inicialmente desconocidos. Una razón puede ser reducir su número. Esta
técnica puede dar nuevas variables que sean más comprensibles que las que
proporciona el análisis de componentes.
El procedimiento es jerárquico e inicia con todas las variables por separado,
cada una formando su propio conglomerado. En el primer paso, se unen las
dos variables más cercanas. Después, ya sea que una tercera variable se
agregue a las dos primeras, o se unan en un conglomerado diferente. El
proceso continua hasta que todos lo conglomerados se unen en uno.
Dagoberto Salgado Horta Página 102
Ejemplo:
Se realiza un estudio para determinar el efecto de largo plazo de un cambio en
el ambiente en la presión arterial. Los sujetos son 39 peruanos de alrededor de
21 años que han migrado de las montañas de los Andes a ciudades más
grandes con menor altura.
Se registra la edad (Age), años desde la migración (Years), peso en Kgs.
(Weight), estatura en mm (Height), mentón, antebrazo, y pierna en mm (Chin,
Forearm, Calf), pulso en latidos por minuto (Pulse), y presión sistólica y
diastólica (Systol, Diastol).
El objetivo es reducir el número de variables al combinar variables con
características similares. Se usa la distancia de correlación, enlace promedio y
dendograma.
Los datos son los siguientes:
Peru.Mtw
Age Years Weight Height Chin Forearm Calf Pulse Systol Diastol
21 1 71 1629 8 7 12.7 88 170 76
22 6 56.5 1569 3.3 5 8 64 120 60
24 5 56 1561 3.3 1.3 4.3 68 125 75
24 1 61 1619 3.7 3 4.3 52 148 120
25 1 65 1566 9 12.7 20.7 72 140 78
27 19 62 1639 3 3.3 5.7 72 106 72
28 5 53 1494 7.3 4.7 8 64 120 76
28 25 53 1568 3.7 4.3 0 80 108 62
31 6 65 1540 10.3 9 10 76 124 70
32 13 57 1530 5.7 4 6 60 134 64
33 13 66.5 1622 6 5.7 8.3 68 116 76
33 10 59.1 1486 6.7 5.3 10.3 72 114 74
34 15 64 1578 3.3 5.3 7 88 130 80
35 18 69.5 1645 9.3 5 7 60 118 68
Dagoberto Salgado Horta Página 103
35 2 64 1648 3 3.7 6.7 60 138 78
36 12 56.5 1521 3.3 5 11.7 72 134 86
36 15 57 1547 3 3 6 84 120 70
37 16 55 1505 4.3 5 7 64 120 76
37 17 57 1473 6 5.3 11.7 72 114 80
38 10 58 1538 8.7 6 13 64 124 64
38 18 59.5 1513 5.3 4 7.7 80 114 66
38 11 61 1653 4 3.3 4 76 136 78
38 11 57 1566 3 3 3 60 126 72
39 21 57.5 1580 4 3 5 64 124 62
39 24 74 1647 7.3 6.3 15.7 64 128 84
39 14 72 1620 6.3 7.7 13.3 68 134 92
41 25 62.5 1637 6 5.3 8 76 112 80
41 32 68 1528 10 5 11.3 60 128 82
41 5 63.4 1647 5.3 4.3 13.7 76 134 92
42 12 68 1605 11 7 10.7 88 128 90
43 25 69 1625 5 3 6 72 140 72
43 26 73 1615 12 4 5.7 68 138 74
43 10 64 1640 5.7 3 7 60 118 66
44 19 65 1610 8 6.7 7.7 74 110 70
44 18 71 1572 3 4.7 4.3 72 142 84
45 10 60.2 1534 3 3 3.3 56 134 70
47 1 55 1536 3 3 4 64 116 54
50 43 70 1630 4 6 11.7 72 132 90
54 40 87 1542 11.3 11.7 11.3 92 152 88
Las instrucciones de Minitab son las siguientes:
1 Open worksheet PERU.MTW.
2 Choose Stat > Multivariate > Cluster Variables.
3 In Variables or distance matrix, enter Age-Diastol.
4 For Linkage Method, choose Average.
5 Check Show dendrogram. Click OK.
Los resultados son los siguientes: Cluster Analysis of Variables: Age, Years, Weight, Height, Chin, Forearm, ... Correlation Coefficient Distance, Average Linkage
Amalgamation Steps
En cada paso se unen dos conglomerados: Number
Number of obs.
of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 9 86.7763 0.264474 6 7 6 2
2 8 79.4106 0.411787 1 2 1 2
3 7 78.8470 0.423059 5 6 5 3
4 6 76.0682 0.478636 3 9 3 2
5 5 71.7422 0.565156 3 10 3 3
6 4 65.5459 0.689082 3 5 3 6
7 3 61.3391 0.773218 3 8 3 7
Dagoberto Salgado Horta Página 104
8 2 56.5958 0.868085 1 3 1 9
9 1 55.4390 0.891221 1 4 1 10
Variables
Sim
ilari
ty
HeightPulseCalfForearmChinDiastolSystolWeightYearsAge
55.44
70.29
85.15
100.00
Dendrogram with Average Linkage and Correlation Coefficient Distance
El dendograma muestra la información de los resultados del proceso de
aglomeración en forma de diagrama de árbol, de aquí se sugiere que las
algunas variables son similares, y se pueden combinar ya sea promediando
sus valores o calculando totales:
Chin, Forearm, Calf son similares y pueden combinarse.
Age y Year son similares pero se investigará la relación. Si los sujetos
tienden a migrar a cierta edad entonces las variables pueden contener
información similar y pueden combinarse.
El peso y las presiones son similares, sin embargo se decide mantener
el peso separado y unir las presiones en una.
Ejemplo con Hatco:
Investigando ahora la agrupación de variables se tiene:
En Minitab:
1. Stat > Multivariate > Cluster variables
Dagoberto Salgado Horta Página 105
2. Variables or distance matrix X1 – X7
3. Linkage method Ward (minimiza la distancia dentro de los
conglomerados)
4. Distance Measure Correlation
5. Seleccionar Show Dendogram
6. Customize Label Y axis with Distances
7. OK
Los resultados se muestran a continuación:
Cluster Analysis of Variables: X1, X2, X3, X4, X5, X6, X7 Correlation Coefficient Distance, Ward Linkage
Amalgamation Steps
Number
Number of obs.
of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 6 89.4112 0.21178 4 6 4 2
2 5 80.5950 0.38810 1 5 1 2
3 4 73.4873 0.53025 2 7 2 2
4 3 57.8288 0.84342 1 3 1 3
5 2 39.4434 1.21113 2 4 2 4
6 1 -4.3342 2.08668 1 2 1 7
Variables
Dis
tan
ce
X6X4X7X2X3X5X1
2.09
1.39
0.70
0.00
Dendrogram with Ward Linkage and Correlation Coefficient Distance
Se identifican conglomerados en las variables X1 y X5; X2 y X7; X4 y X6,
después entre X1, X5, X3 y X2, X7, X4 y X6 y al final un solo conglomerado.
Paso 5. Interpretación de los conglomerados
Dagoberto Salgado Horta Página 106
Como resultado de un análisis factorial se tiene:
Instrucciones en Minitab:
1. Stat > Multivariate > Factor analysis
2. Variables X1 – X7 Method of Extraction Maximum likelihood
3. Rotation Varimax
4. Graphs Scree Plot y Loading Plot for first two factors
5. OK
Factor Analysis: X1, X2, X3, X4, X5, X6, X7 Maximum Likelihood Factor Analysis of the Correlation Matrix
* NOTE * Heywood case
Unrotated Factor Loadings and Communalities
Variable Factor1 Factor2 Communality
X1 0.969 0.177 0.971
X2 -0.181 -0.984 1.000
X3 0.436 0.400 0.350
X4 0.133 -0.301 0.108
X5 0.752 -0.660 1.000
X6 0.133 -0.214 0.063
X7 -0.424 -0.400 0.340
Variance 1.9431 1.8896 3.8327
% Var 0.278 0.270 0.548
Rotated Factor Loadings and Communalities
Varimax Rotation
Variable Factor1 Factor2 Communality
X1 -0.894 0.414 0.971
X2 0.714 0.700 1.000
X3 -0.587 -0.075 0.350
X4 0.065 0.323 0.108
X5 -0.235 0.972 1.000
X6 0.015 0.251 0.063
X7 0.577 0.082 0.340
Variance 2.0468 1.7859 3.8327
% Var 0.292 0.255 0.548
Factor Score Coefficients
Variable Factor1 Factor2
X1 0.000 -0.000
X2 1.132 0.273
X3 0.000 -0.000
X4 -0.000 -0.000
X5 -0.815 0.832
X6 -0.000 -0.000
X7 -0.000 0.000
Dagoberto Salgado Horta Página 107
First Factor
Se
co
nd
Fa
cto
r
0.50.0-0.5-1.0
1.0
0.8
0.6
0.4
0.2
0.0
X7
X6
X5
X4
X3
X2
X1
Loading Plot of X1, ..., X7
Para las correlaciones en Minitab:
1. Stat > Basic statistics > Correlations
2. Variables X1 – X7 Show P values
3. OK
Correlations: X1, X2, X3, X4, X5, X6, X7 X1 X2 X3 X4 X5 X6
X2 -0.349
0.000
X3 0.476 -0.472
0.000 0.000
X4 0.050 0.272 -0.095
0.618 0.006 0.347
X5 0.612 0.513 0.064 0.299
0.000 0.000 0.524 0.003
X6 0.077 0.186 -0.015 0.788 0.241
0.446 0.064 0.880 0.000 0.016
X7 -0.483 0.470 -0.407 0.200 -0.055 0.177
0.000 0.000 0.000 0.046 0.586 0.078
Cell Contents: Pearson correlation
P-Value
Al definir los factores que son las dimensiones de las variables que se
correlacionan significativamente, se observan dos factores. El primer factor
contiene a X1, X2, X3 y X7 y el segundo factor contiene a los aspectos de
imagen X4 y X6. En el primer factor X2 y X7 se relacionan inversamente con
Dagoberto Salgado Horta Página 108
X1 y X3, es decir que mientras se incrementan unas, las otras bajan. Esto
sugiere que altos valores en X1 y X3 implican valores bajos en X2 y X7. O sea
que definir conglomerados sólo con base en valores altos o bajos es
inapropiado.
De la tabla ANOVA para dos conglomerados se observa que solo X5 – Servicio
general no es significativa.
0
1
2
3
4
5
6
7
8
9
10
X1 X2 X3 X4 X5 X6 X7
1
2
De la gráfica de centros de conglomerados se observa que X4 y X6 tienen
valores mayores en el conglomerado 2 que en el 1 y X1, X3 tienen valores
mayores en el conglomerado 1 que en el 2 y X2 y X7 son menores.
Para el caso de 4 conglomerados, el 1 se divide en 1 y 4 y el 2 se divide en 2 y
3 se tiene:
0
2
4
6
8
10
12
X1 X2 X3 X4 X5 X6 X7
1
2
3
4
Cluster
Dagoberto Salgado Horta Página 109
En general la aplicación del análisis de conglomerados es un arte más que una
ciencia y se deben aplicar criterios objetivos y subjetivos adecuados.
Dagoberto Salgado Horta Página 110
9. ANÁLISIS DE COMPONENTES
PRINCIPALES
Dagoberto Salgado Horta Página 111
9. ANÁLISIS DE COMPONENTES PRINCIPALES
Introducción
El objetivo del análisis es tomar p variables X1, X2, …., Xp algunas de ellas
correlacionadas entre sí y encontrar combinaciones de las mismas para
producir índices Z1, Z2, ….., Zp que sean no correlacionadas. Z1 muestra la
mayor parte de la varianza, seguida de Z2, etc. Se trata de reducir el número
de variables X por un pequeño grupo de variables Z.
Un ejemplo clásico2 es tratar de caracterizar criminales con base en siete
dimensiones corporales. Las dimensiones utilizadas fueron: longitud del dedo
izquierdo, longitud de la pierna izquierda, longitud del pie izquierdo, longitud de
la cabeza, ancho de la cabeza, ancho y alto de la cara.
Como resultados del análisis3 se determinaron tres componentes no
correlacionados de esas mediciones, en conjunto acumulaban el 84% de la
varianza total de las siete variables originales. Cada uno de los componentes
es una combinación lineal de las siete variables originales.
El primero incluye el 54% de la varianza total y se refiere a las
dimensiones generales.
El segundo contiene el 25% de la varianza total representa el contraste
entre el tamaño de la cabeza y el resto del cuerpo.
El tercer tiene el 9% de la varianza y contrasta la longitud de la cabeza
con su ancho.
Los coeficientes se muestran a continuación:
Coeficientes
Variables Primero Segundo Tercero
Long. Cabeza 0.538 -0.447 -0.712
Ancho cabeza 0.413 -0.784 0.206
Ancho cara 0.575 -0.628 0.309
Long. Dedo izq. 0.853 0.288 0.056
Long. Brazo izq. 0.888 0.339 0.030
Pie izquierdo 0.878 0.219 0.048
2 Maxwell, A.E., Multivariate Analysis in Behavioral Research, Chapman and Hall, Londres, 1977.
3 Ibidem
Dagoberto Salgado Horta Página 112
Estatura 0.849 0.220 0.005
La posibilidad de caracterizar a los criminales con sus dimensiones motivo al
desarrollo de los análisis multivariados.
El método de componentes principales
Dada la matriz X que representa n observaciones en cada una de las p
variables, X1, X2, X3, …., Xp, el propósito del análisis de componentes
principales consiste en determinar una nueva variable Z1 que pueda ser
utilizada para acumular la varianza de las p X variables. El componente
principal Z1 está dado por la combinación lineal de las p X variables por:
ppXvXvXvZ
12211111.....
Para determinar los coeficientes de Z1 se usa el método de mínimos
cuadrados, donde se trata de minimizar la suma de las desviaciones al
cuadrado de:
p
j
n
i ijijxx
1 1
2)ˆ(
Donde:
pjnix
zax
xvz
ij
ijij
ijji
,....,2,1;,....,2,1
ˆ 11
11
Denota las observaciones en X.
En notación matricial se trata de determinar los vectores (p x1) v1 y a1, donde
z1 (n x 1) = Xv1 y X = z1a’1 tal que )ˆ()'ˆ( XXXXtr sea minimizada.
Para la solución de este problema se utilizan los valores característicos o
Eigenvalores, dados por:
0)'( vIXX
Dagoberto Salgado Horta Página 113
Como la magnitud de v es arbitraria, v’v=1. Por tanto la solución al problema
son los vectores característicos o eigenvalores j, j = 1,2,3,…., s y los vectores
característicos correspondientes vj, j = 1,2,3,…., s, donde el número de
soluciones de s, corresponde al rango de (X’X).
Ejemplo:
Dada la matriz
22
30
2
34
215
02
156
A
Los valores característicos o Eigenvalores se obtienen al resolver la ecuación
del determinante: | A - I | = 0, lo cual da en este caso:
0
)2(2
30
2
3)4(
215
02
15)6(
El polinomio resultante es:
0)2(2
15)6(
2
3)2)(4)(6(
Con sus raíces características o eigenvalores = 1, 3 y 8.
Los eigenvectores correspondientes se obtienen resolviendo la ecuación
(A -I)v = 0 para cada uno de los eigenvalores . Para el caso de = 3 se
tiene:
Dagoberto Salgado Horta Página 114
1
0
)32(2
30
2
3)34(
215
02
15)36(
2
3
2
2
2
1
3
2
1
vvv
v
v
v
La restricción para que la solución sea única es que:
Proporciona el eigenvector:
209
103
2
1'v
Determinado los otros eigenvectores se tiene la matriz V.
701
209
2815
3512
103
145
149
2
1
283
V
En Matlab se tiene:
To get started, select "MATLAB Help" from the Help menu.
>> A=[6 sqrt(15/2) 0; sqrt(15/2) 4 sqrt(3/2); 0 sqrt(3/2) 2]
A =
6.0000 2.7386 0
2.7386 4.0000 1.2247
0 1.2247 2.0000
>> Lamda=eig(A)
Lamda =
1.0000
3.0000
8.0000
>> [V,D]=eig(A)
V =
0.3273 0.5000 -0.8018
-0.5976 -0.5477 -0.5855
0.7319 -0.6708 -0.1195
D =
1.0000 0 0
0 3.0000 0
Dagoberto Salgado Horta Página 115
0 0 8.0000
>>
Los s eigenvectores y sus correspondientes eigenvalores proporcionan s
soluciones para el componente principal deseado Z1. La solución que
corresponde al mínimo requerido emplea el eigenvalor más grande 1 y su
vector correspondiente v1.
En particular var(Zi) = i y las constantes ai1, ai2, …, aip son los elementos del
eigenvector correspondiente.
Los pasos para hacer un análisis de componentes principales son los
siguientes:4
1. Iniciar codificando las variables X1, X2, ….., Xp a que tnegan media cero y
desviación estándar uno.
2. Calcular la matriz de covarianza C. Es la matriz de correlación después del
paso 1.
1...........
..............................
...........1
..................1
21
221
112
pp
p
p
cc
cc
cc
C
Donde cada Cij = Cji es la correlación entre Xi y Xj. De esta manera la suma de
los términos diagonales, y la suma de los eigenvalores es igual al número de
variables p.
3. Encontrar los eigenvalores 1, 2, ……, p y los correspondientes
eignevectores a1, a2, …… , ap. Los coeficientes del i-ésimo componente
principal están dados por ai mientras que la varianza es i.
4. Descartar cualquier componente que solo contenga una pequeña parte de la
varianza de los datos (menor o igual a uno). Por ejemplo, iniciando en 20
variables, puede ser que los primeros tres componentes tengan el 90% de la
varianza total. Bajo esta base, se pueden ignorar los otros 17 componentes.
4 Bryan, F.J. Manly, Multivariate Statistical Methods, Chapman and Hall, Londres, 1986
Dagoberto Salgado Horta Página 116
Ejemplo:
Los datos de las dimensiones de 49 pájaros se muestran a continuación:
Tabla y corrida Minitab
Los eigenvalores de esta matriz son: 3.616, 0.532, 0.386, 0.302 y 0.164, que
suman 5.000, que es igual a la suma de los términos de la diagonal de la matriz
C.
De la tabla de eigenvectores, se obtienen los coeficientes de los componentes
principales.
El eigenvalor de un componente principal, indica la varianza de un total de
5.000. Así, para el primer componente principal se tiene:
(3.616/5.000)*100%=72.3%; el segundo tiene 10.6%; el tercero 7.7%, etc. De
manera clara, el primer componente es el más importante.
El primer componente principal es:
543211398.0471.0451.0462.0452.0 XXXXXZ
Donde X1 a X5 son las variables estandarizadas. Este es un índice del tamaño
de los pájaros. De modo que el 72.3% de la varianza de los datos está
relacionada con diferencias en los tamaños.
El segundo componente principal es:
543212877.0185.0325.0300.0051.0 XXXXXZ
En este caso contrasta X2, X3 y X4 contra X5, de modo que Z2 será alta si
(X2,X3,X4) son altas y (X5) es baja, por tanto puede considerarse que
representa la diferencia de forma entre los pájaros.
Para calcular Z1, primero se estandarizan las Xi como sigue:
X1 = (x1 – Media x1)/ desv. Estad. x1 = (156 – 157.98) / 3.654
X2 = (245 – 241.327)/5.068 = 0.725
X3 = (31.6 – 31.459)/0.795 = 0.177
Dagoberto Salgado Horta Página 117
X4 = (18.5 – 18.469)/0.564 = 0.055
X5 = (20.5 – 20.827)/0.991 = -0.330
Sustituyendo estos valores en las ecuaciones para Z1 y Z2 se tiene:
Z1 = 0.064
Z2 = 0.602
De esta misma manera se pueden calcular los otros componentes.
Los valores de las coordenadas Z correspondientes a los diferentes pájaros se
muestra a continuación.
En la figura se puede observar que los pájaros con valores extremos en
dimensiones Z1 tienen menos probabilidades de sobrevivir, lo mismo sucede
para valores altos de Z2.
Dagoberto Salgado Horta Página 118
Ejemplo: alimentos en las principales ciudades europeas:
X1 X2 X3 X4 X5 X6 X7 X8 X9
País RMEAT WMEAT EGGS MILK FISH CERL STARCH NUTS FR-VEG
1 10.1 1.4 0.5 8.9 0.2 42.3 0.6 5.5 1.7
2 8.9 14 4.3 19.9 2.1 28 3.6 1.3 4.3
3 13.5 9.3 4.1 17.5 4.5 26.6 5.7 2.1 4
4 7.8 6 1.6 8.3 1.2 56.7 1.1 3.7 4.2
5 9.7 11.4 2.8 12.5 2 34.3 5 1.1 4
6 10.6 10.8 3.7 25 9.9 21.9 4.8 0.7 2.4
7 8.4 11.6 3.7 11.1 5.4 24.6 6.5 0.8 3.6
8 9.5 4.9 2.7 33.7 5.8 26.3 5.1 1 1.4
9 18 9.9 3.3 19.5 5.7 28.1 4.8 2.4 6.5
10 10.2 3 2.8 17.6 5.9 41.7 2.2 7.8 6.5
11 5.3 12.4 2.9 9.7 0.3 40.1 4 5.4 4.2
12 13.9 10 4.7 25.8 2.2 24 6.2 1.6 2.9
13 9 5.1 2.9 13.7 3.4 36.8 2.1 4.3 6.7
14 9.5 13.6 3.6 23.4 2.5 22.4 4.2 1.8 3.7
15 9.4 4.7 2.7 23.3 9.7 23 4.6 1.6 2.7
16 6.9 10.2 2.7 19.3 3 36.1 5.9 2 6.6
17 6.2 3.7 1.1 4.9 14.2 27 5.9 4.7 7.9
18 6.2 6.3 1.5 11.1 1 49.6 3.1 5.3 2.8
19 7.1 3.4 3.1 8.6 7 29.2 5.7 5.9 7.2
20 9.9 7.8 3.5 24.7 7.5 19.5 3.7 1.4 2
21 13.1 10.1 3.1 23.8 2.3 25.6 2.8 2.4 4.9
22 17.4 5.7 4.7 20.6 4.3 24.3 4.7 3.4 3.3
23 9.3 4.6 2.1 16.6 3 43.6 6.4 3.4 2.9
24 11.4 12.5 4.1 18.8 3.4 18.6 5.2 1.5 3.8
25 4.4 5 1.2 9.5 0.6 55.9 3 5.7 3.2
Las instrucciones de Minitab son las siguientes:
Para un análisis de correlaciones se tiene: 1. Stat > Basic statistics > Correlation
2. Variables X1, X2, X3, X4, X6, X7
3. Display p values
4. OK
Dagoberto Salgado Horta Página 119
Los resultados son los siguientes:
Correlations: RMEAT, WMEAT, EGGS, MILK, FISH, CERL, STARCH, NUTS, FR-VEG RMEAT WMEAT EGGS MILK FISH CERL STARCH NUTS
WMEAT 0.153
0.465
EGGS 0.586 0.620
0.002 0.001
MILK 0.503 0.281 0.576
0.010 0.173 0.003
FISH 0.061 -0.234 0.066 0.138
0.772 0.260 0.755 0.511
CERL -0.500 -0.414 -0.712 -0.593 -0.524
0.011 0.040 0.000 0.002 0.007
STARCH 0.135 0.314 0.452 0.222 0.404 -0.533
0.519 0.127 0.023 0.285 0.045 0.006
NUTS -0.349 -0.635 -0.560 -0.621 -0.147 0.651 -0.474
0.087 0.001 0.004 0.001 0.483 0.000 0.017
FR-VEG -0.074 -0.061 -0.046 -0.408 0.266 0.047 0.084 0.375
0.724 0.771 0.829 0.043 0.198 0.825 0.688 0.065
Cell Contents: Pearson correlation
P-Value
Se observa que varias variables Xi estan correlacionadas entre sí.
Para el análisis de componentes principales se tiene:
1 Cargar los datos de la Tabla.
2 Stat > Multivariate > Principal components
3 En Variables, X1, X2, X3, X4, X6, X7, X8, X9
4 En Number of factors to extract, 3. Seleccionar Correlation Matrix
5 Click Graphs y seleccionar Scree Plot, Score plot for first 2 components Loading plot for first 2 components
8 Click Storage e indicar las columnas donde se guarden los coeficientes y los valores Z (scores) Coef1 Coef 2 y Z1 Z2
9. Click OK en cada uno de los cuadros de diálogo.
Dagoberto Salgado Horta Página 120
Dagoberto Salgado Horta Página 121
Los eigenvalores para cada componente son los siguientes:
Principal Component Analysis: RMEAT, WMEAT, EGGS, MILK, FISH, CERL, STARCH, NUT Eigenanalysis of the Correlation Matrix
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
Eigenvalue 4.0064 1.6350 1.1279 0.9547 0.4638 0.3251 0.2716 0.1163
Proportion 0.445 0.182 0.125 0.106 0.052 0.036 0.030 0.013
Cumulative 0.445 0.627 0.752 0.858 0.910 0.946 0.976 0.989
PC9
Eigenvalue 0.0991
Proportion 0.011
Cumulative 1.000
Se observa que los componentes PC1 y PC2 contienen el 62% de la varianza
total.
Component Number
Eig
en
va
lue
987654321
4
3
2
1
0
Scree Plot of RMEAT, ..., FR-VEG
Valor mínimo a considerar
La composición aproximada de las variables en función de los componentes
principales son:
Variable PC1 PC2 PC3
RMEAT -0.303 0.056 0.298
WMEAT -0.311 0.237 -0.624
EGGS -0.427 0.035 -0.182
MILK -0.378 0.185 0.386
FISH -0.136 -0.647 0.321
CERL 0.438 0.233 -0.096
STARCH -0.297 -0.353 -0.243
NUTS 0.420 -0.143 0.054
FR-VEG 0.110 -0.536 -0.408
Que al graficar en función de los dos primeros componentes, se obtiene lo
siguiente:
Dagoberto Salgado Horta Página 122
First Component
Se
co
nd
Co
mp
on
en
t
0.40.30.20.10.0-0.1-0.2-0.3-0.4-0.5
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
-0.6
-0.7
FR-VEG
NUTS
STARCH
CERL
FISH
MILK
EGGS
WMEAT
RMEAT
Loading Plot of RMEAT, ..., FR-VEG
Los valores de las variables Z1 y Z2 (scores) calculados son:
Z1 Z2
3.48537 1.63048
-1.42267 1.04123
-1.62203 -0.15950
3.13408 1.30107
-0.37046 0.60267
-2.36527 -0.28545
-1.42221 -0.45030
-1.56386 0.59600
-1.48798 -0.78537
2.23970 -1.00106
1.45744 0.81595
-2.66348 0.76371
1.53457 -0.39899
-1.64145 0.91199
-0.97470 -0.82203
-0.12187 -0.53174
1.70585 -4.28893
2.75681 1.11879
1.31181 -2.55352
-1.63373 0.20738
-0.91232 0.75106
-1.73537 0.09398
0.78260 0.11077
-2.09384 0.29378
3.62301 1.03803
Que al graficarlos dan lo siguiente:
1. Graph > Scatterplot > Simple
2. Y Variables Z2 X Variables Z1
3. Labels > Data labels > Use labels form column País
Dagoberto Salgado Horta Página 123
4. OK
Se tiene la gráfica siguiente de países:
Europa occidental Europa oriental Balcanes
Z1
Z2
43210-1-2-3
2
1
0
-1
-2
-3
-4
-5
25
242322
21
20
19
18
17
1615
14
13
12 11
109
8
76
5
4
3
2
1
Scatterplot of Z2 vs Z1
Península ibérica
Dagoberto Salgado Horta Página 124
Ejemplo:
Se registran las siguientes características para 14 censos: Población total
(Pop), mediana de años escolares (School), empleo total (Employ),empleo en
servicios de salud (Health), y valor mediano del valor de la casa (Home). Los
datos se muestran a continuación:
Pop School Employ Health Home
5.935 14.2 2.265 2.27 2.91
1.523 13.1 0.597 0.75 2.62
2.599 12.7 1.237 1.11 1.72
4.009 15.2 1.649 0.81 3.02
4.687 14.7 2.312 2.5 2.22
8.044 15.6 3.641 4.51 2.36
2.766 13.3 1.244 1.03 1.97
6.538 17 2.618 2.39 1.85
6.451 12.9 3.147 5.52 2.01
3.314 12.2 1.606 2.18 1.82
3.777 13 2.119 2.83 1.8
1.53 13.8 0.798 0.84 4.25
2.768 13.6 1.336 1.75 2.64
6.585 14.9 2.763 1.91 3.17
Se realiza un análisis de componentes principales para comprender la
estructura de datos subyacente. Se usa la matriz de correlación para
estandarizar las mediciones dado que no se mide con la misma escala.
Las instrucciones de Minitab son las siguientes:
1 Abrir la worksheet EXH_MVAR.MTW.
2 Stat > Multivariate > Principal Components.
3 En Variables, Pop-Home.
4 En Type of Matrix, seleccionar Correlation.
5 Click Graphs y seleccionar Scree plot.
6 Click OK en cada cuadro de diálogo.
Los resultados se muestran a continuación:
Dagoberto Salgado Horta Página 125
Principal Component Analysis: Pop, School, Employ, Health, Home Eigenanalysis of the Correlation Matrix
Eigenvalue 3.0289 1.2911 0.5725 0.0954 0.0121
Proportion 0.606 0.258 0.114 0.019 0.002
Cumulative 0.606 0.864 0.978 0.998 1.000
Variable PC1 PC2 PC3 PC4 PC5
Pop -0.558 -0.131 0.008 0.551 -0.606
School -0.313 -0.629 -0.549 -0.453 0.007
Employ -0.568 -0.004 0.117 0.268 0.769
Health -0.487 0.310 0.455 -0.648 -0.201
Home 0.174 -0.701 0.691 0.015 0.014
Component Number
Eig
en
va
lue
54321
3.0
2.5
2.0
1.5
1.0
0.5
0.0
Scree Plot of Pop, ..., Home
Interpretando los resultados
El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el
60.6% de la varianza total. Los coeficientes para el PC1 muestran como
calcular el nivel del componente principal.
PC1 = .558 Pop .313 School .568 Employ .487 Health + .174 Home
Notar que la interpretación de los componentes principales es subjetiva, sin
embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podría
pensar que el primer componente represente el efecto del tamaño de la
población total, el nivel de escolaridad, empleo y servicios de salud, dado que
los coeficientes de estos términos tienen el mismo signo y no son cercanos a
cero.
Dagoberto Salgado Horta Página 126
El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la
variabilidad de los datos. Se calcula de los datos originales usando los
coeficientes listados en PC2. Este componente podría ser pensado como nivel
de contraste de escolaridad y valor de la casa con salud y empleo de alguna
manera.
Juntos el primero y segundo componentes representan el 86.4% y 97%,
respectivamente, de la variabilidad total. Así, la mayoría de la estructura de
datos puede ser capturada en dos o tres dimensiones relevantes. Los
componentes remanentes solo tienen una menor proporción de probabilidad y
no son importantes. La gráfica Scree proporciona una visión gráfica de lo
anterior.
Dagoberto Salgado Horta Página 127
10. ANÁLISIS FACTORIAL
Dagoberto Salgado Horta Página 128
10. ANÁLISIS FACTORIAL
De manera similar al análisis de componentes principales, el propósito principal
del Análisis factorial es describir la variación entre muchas variables, en
términos de una pocas variables subyacentes no observables, denominadas
factores. De manera diferente al análisis de componentes, en el análisis
factorial se especifican un cierto número de factores comunes. Todas las
covarianzas o correlaciones se explican por los factores comunes. La varianza
no explicada por los factores comunes se asigna los términos de error residual
denominados factores únicos, no correlacionados entre sí.
La matriz del modelo de análisis factorial asume que la matriz de correlación o
de covarianzas se puede dividir en dos partes:
La matriz de factores comunes
La matriz de errores o factores únicos
Mientras que el análisis de componentes principales se enfoca a explicar la
varianza de las variables, el análisis factorial se enfoca a la explicación de la
covarianza de las variables. Al final obtiene grupos de variables dentro de los
cuales las variables son altamente correlacionadas, sin embargo entre
diferentes grupos tengan correlación débil.5
El análisis factorial es un método cuyo propósito principal es definir la
estructura subyacente de una matriz de datos. Atiende el problema de analizar
la estructura de las interrelaciones (correlaciones) entre un gran número de
variables (Vg. Respuestas de cuestionarios) al definir un conjunto de
dimensiones subyacentes comunes, conocidas como factores. Con el análisis
factorial se identifican las dimensiones separadas de la estructura y después se
determina que tanto cada variable es explicada por cada dimensión. Una vez
5 Jonson, J.D., Applied Multivariate Data Analysis: Volume II, Categorical and Multivariate Methods,
Spinger Verlag, Nueva York, 1992
Dagoberto Salgado Horta Página 129
que se determinan las dimensiones y se explican las variables por cada
dimensión, se puede hacer un resumen y reducción de datos.6
El análisis factorial es una técnica de interdependencia en la cual todas las
variables son consideradas de manera simultanea, cada una relacionada a las
otras, y empleando el concepto de variate, composición lineal de variables. De
hecho las variates (factores) se forman para maximizar su explicación de todo
el conjunto de variables, no para predecir una variable dependiente(s). Una
variate (factor) es una variable dependiente que es función del conjunto total de
variables.
Se usa el Análisis factorial, de manera similar al análisis de componentes
principales, para resumir la estructura de covarianza de los datos en unas
pocas dimensiones de los mismos. Sin embargo, el énfasis en análisis factorial
es la identificación de los ―factores subyacentes‖ que pueden explicar las
dimensiones asociadas con la gran variabilidad de los datos.
Se pueden tener tres tipos de datos de entrada:
Columnas de datos unitarios
Una Matriz de correlaciones o covarianzas
Columnas conteniendo ponderaciones de factores
Con los datos del ejemplo anterior de Componentes principales, realizar un
análisis factorial como sigue:
Nos gustaría investigar que ―factores‖ pueden explicar la mayor parte de la
variabilidad. Como primer paso del análisis factorial, se utiliza la extracción de
componentes principales y se examinan los eigenvalores en gráfica como
ayuda para decidir el número de factores.
6 Hair, Joseph, F, et. Al., Multivariate Data Analysis, 5
th. Edition, Prentice Hall International, Nueva
Jersey, 1998
Dagoberto Salgado Horta Página 130
Modelo matemático
A partir de los trabajos de Charles Spearman (1904) al hacer estudios de
psicología sobre la teoría de pruebas mentales, formuló un modelo de dos
factores: cada resultado de la prueba se forma de dos partes, uno que es
común a todas las pruebas (―inteligencia general‖) y otro que es específico a la
prueba. Posteriormente, se modificó a para permitir que cada resultado de
prueba consistiera de una parte debida a varios factores comunes, además de
una parte específica de la prueba.
El modelo general de análisis de factores es el siguiente:
imimiiieFaFaFaX ...
2211
Donde Xi es el resultado i-ésimo de la prueba con media cero y varianza
unitaria; ai1, ai2,…, aim son las Cargas factoriales para la i-ésima prueba; F1,
F2, …, Fm son los m factores comunes no correlacionados, cada uno con
media cero y varianza uno, ei es el error específico para la i-ésima prueba, no
correlacionado con los factores comunes.
Con este modelo:
)(...)(
)()(...)()()(
22
21
2
2
222
112
iimiii
imimiii
eVaraaaXVar
eVarFVaraFVaraFVaraXVar
Donde:
imii aaa2
22
12
...
Es llamada la comunalidad de Xi (la parte de la varianza que está relacionada
con los factores comunes) mientras que Var(ei) es denominada la
especificidad de Xi (la parte de su varianza que no está relacionada con los
factores comunes). También se puede establecer que la correlación entre Xi y
Xj es:
Dagoberto Salgado Horta Página 131
jmimjijiijaaaaaar ......
2211
De esta manera dos resultados de prueba están muy correlacionados si tienen
valores de carga altos en los mismos factores. Además -1<= aij <= 1, ya que la
comunalidad no puede exceder uno.
El análisis factorial se hace en tres etapas:
Etapa 1 – extracción de factores: se determinan cargas o
ponderaciones provisionales de los factores aij. Una forma de hacerlo es
realizar un análisis de componentes principales y no considerar los
componentes principales después de los primeros m, que serán
tomados como los m factores. Como regla se pueden tomar los m
eigenvalores que excedan a la unidad. Estos factores no están
correlacionados entre sí, sin embargo los factores específicos pueden
estar correlacionados entre sí, lo que no afecta si las comunalidades son
altas. Con cualquier método que se extraigan las ponderaciones
preliminares de los factores, se puede mostrar que no son únicas. Si F1,
F2,…, Fm son los factores preliminares, se pueden construir
combinaciones lineales de estos de la forma:
mmmmmm
mm
mm
FdFdFdF
FdFdFdF
FdFdFdF
.....
.....
.....
2211
'
2222121
'
2
1212111
'
1
Las combinaciones se pueden hacer de forma que no sean
correlacionadas y ―expliquen‖ los datos adecuadamente. Se observa que
hay un número infinito de posibles soluciones.
Etapa 2 – Rotación de factores: los factores preliminares se transforman
de modo que se identifiquen nuevos factores más fáciles de interpretar.
Rotar equivale a seleccionar los coeficientes dij en las ecuaciones
anteriores. La rotación puede ser ortogonal u oblicua. Con la rotación
ortogonal, los nuevos factores no están correlacionados, tal como los
originales. Con rotación oblicua, los nuevos factores están correlacionados.
Dagoberto Salgado Horta Página 132
Se espera que las ponderaciones o cargas aij sean casi cero (indicando
que Xi no se relaciona con el factor Fj), o muy alejadas de cero (positivas o
negativas) indicando que Xi está determinado ampliamente por Xj de
manera amplia.
Un método popular de rotación es el Varimax que está basado en el
supuesto de que la interpretabilidad del factor j puede ser medido por la
varianza del cuadrado de sus ponderaciones (a1j2, a2j
2 ,etc.) donde si la
varianza es grande, los valores de aij2 tienden a ser cero o cercanos a la
unidad, de esta forma Varimax maximiza la suma de estas varianzas para
todos los factores.
Los factores rotados se pueden expresar como sigue:
XGGGF ')'(*1
Etapa 3 – cálculo de los factores individuales: son los valores de los
factores F1, F2, …, Fm, para cada una de las observaciones
individuales.
Dagoberto Salgado Horta Página 133
PROCESO DE DECISIÓN DE ANÁLISIS FACTORIAL
Paso 1. Objetivos del Análisis factorial
El propósito es encontrar una forma de condensar (resumir) la información
contenida en un cierto número de variables originales, en un grupo más
pequeño de dimensiones nuevas, compuestas o variates (factores) con un
mínimo de pérdida de información.
Por ejemplo si hay datos de 100 cuestionarios en 10 características, el análisis
factorial se aplica a la matriz de correlación de variables y se denomina
Análisis Factorial R, para identificar las dimensiones que están latentes o no
son fácilmente observables.
El análisis factorial también se puede aplicar a una matriz de correlación de los
cuestionarios individuales basados en sus características, referido como
Análisis Factorial Q, es un método de condensar o combinar un grupo grande
de gente en diferentes grupos distintos dentro de una población grande, para
esto se utiliza el análisis de conglomerados (clusters).
Paso 2. Diseño del análisis factorial
Incluye tres decisiones básicas: (1) cálculo de los datos de entrada (una matiz
de correlación) para cumplir con los objetivos especificados de agrupar
variables o cuestionarios; (2) el diseño del estudio en términos del número de
variables, propiedades de medición de las variables, y el tipo de variables
permitidas y (3) el tamaño de muestra necesario (al menos 5 veces el número
de variables analizadas), ambos en términos absolutos y como función de del
número de variables en el análisis.
Dagoberto Salgado Horta Página 134
Paso 3. Supuestos del análisis factorial
Es deseable algún grado de multicolinealidad entre variables dado que el
objetivo es identificar conjuntos de variables interrelacionadas, no son tan
importantes la normalidad, homoestacidad y linealidad a menos que
disminuyan significativamente las correlaciones observadas.
La matriz de correlación debe indicar valores mayores a 0.3 para aplicar el
análisis de correlación. También si las correlaciones parciales entre variables
(correlación entre variables cuando el efecto de las otras variables se toma en
cuenta) son pequeñas dado que la variable puede explicada por los factores
(variates con ponderaciones para cada una de las variables). Si las
correlaciones parciales son altas, no hay factores subyacentes ―verdaderos‖ y
el análisis factorial es inapropiado.
La prueba de esfericidad de Bartlett mide la presencia de correlaciones entre
las variables, proporciona la probabilidad de que la matriz de correlación tenga
correlaciones significativas en algunas de las variables. Otro indicador es el
“Measure of Sampling Adequacy (MSA)”, con rango de 0 a 1, donde 0.8 o más
es meritorio; 0.07 o más es regular; 0.60 o más es mediocre; 0.50 o más
miserable y debajo de 0.50 inaceptable.
El supuesto básico en el análisis factorial es que existe una estructura
subyacente en el conjunto de variables seleccionadas.
Paso 4. Identificando factores y evaluando el ajuste del modelo
Una vez que se especifican las variables y se prepara la matriz de correlación,
se toman decisiones en relación a (1) el método de extracción de los factores
(análisis de factores comunes versus análisis de componentes) y (2) el número
de factores seleccionados para representar la estructura subyacente en los
datos.
Dagoberto Salgado Horta Página 135
Análisis de componentes
El análisis de componentes se usa cuando el objetivo es resumir la mayor parte
de la información original (varianza) en un mínimo número de factores para
propósitos de predicción. Considera la varianza total y determina factores que
contienen pequeñas proporciones de varianza única y, en algunos casos,
varianza del error. No se basa en un modelo estadístico específico.7
Análisis factorial
En contraste el análisis de factores comunes se utiliza para identificar los
factores subyacentes o dimensiones que reflejan aquello que las variables
comparten en común. Se basa en un modelo estadístico especial.
En este método se tienen tres tipos de varianzas: (1) común, (2) específica
(única), y (3) error. La varianza común (communalities) se define como la
varianza en una variable que es compartida por todas las demás variables. La
varianza específica es la varianza asociada solo con una variable específica.
La varianza del error es la varianza debida a la incertidumbre en el proceso de
recolección de datos, errores de medición, o componente aleatorio en el
fenómeno medido.
Criterios para el número de factores a extraer
El primer método extrae la combinación de variables explicando la mayor
cantidad de varianza y después continúa con combinaciones que representan
menos y menos cantidades de varianza.
La selección de factores a extraer equivale a enfocar un microscopio,
normalmente se hace por prueba y error contrastando los resultados.
Criterio de Raíz Latente: su racional es que cualquier factor individual debe
contener la varianza de al menos una variable. Como cada variable contribuye
con 1 al eigenvalor total o raíz latente. Se seleccionan solo los factores con
7 Ibidem
Dagoberto Salgado Horta Página 136
eigenvalores mayores a uno, cuando se tienen menos de 20 variables, los
factores extraídos son pocos.
Criterio a Priori: en este método el investigador ya tiene una idea clara de los
factores a extraer y así lo indica en la computadora.
Criterio de porcentaje de varianza: Enfoque basado en lograr un porcentaje
acumulado de varianza total extraído por factores sucesivos. Normalmente el
proceso para al acumular 95%.
Criterio Scree Test: Se usa para identificar el número óptimo de factores que
pueden ser extraídos antes de que la cantidad de varianza única empiece a
dominar la estructura de varianza común.
Paso 5. Interpretando los factores
Se obtiene la matriz no rotada para estimar el número de factores a extraer. La
matriz de factores contiene ponderaciones de factores para cada variable en
cada factor. El primer factor puede verse como la mejor combinación lineal
incluida en los datos, con cada factor con ponderaciones significativos y
acumula la mayor parte de la varianza; el segundo factor es la segunda mejor
combinación lineal de variables, sujeta a que es ortogonal al primer factor, se
Eigenvalor 1
Número de factores
8
Dagoberto Salgado Horta Página 137
basa en la porción residual de la varianza una vez removido el primero, así
sucesivamente.
Los ponderaciones de los factores representan la correlación de cada una de
las variables y el factor, entre mayores sean, mayor será la representatividad
del factor por la variable.
La rotación de los factores más simple es una rotación ortogonal, en la cual
se mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los
90 grados entre los ejes de referencia. Cuando no hay restricción de
ortogonalidad, el procedimiento de rotación se denomina rotación oblicua.
Fig. 1 Rotación ortogonal de factores (observar la ponderación o ponderación de factores I y
II en la variable V2, es más clara cuando se rotan los factores)
En la figura se observan dos conglomerados de variables (V1 y V2) y (V3, V4 y
V5), sin embargo con los factores sin rotar no es muy obvia su ponderación o
ponderación de los factores I y II. Después de la rotación de los ejes de
factores, las variables 3, 4 y 5 tienen una ponderación o ponderación fuerte de
factor I, y las variables 1 y2 tienen una ponderación o ponderación fuerte en el
factor II. Siendo más obvia la distinción entre conglomerados en dos grupos.
+1 Factor II sin rotar
+1 Factor I sin rotar
-1 Factor II sin rotar
-1
V1
V2
V5
V3
V4
+1 Factor I rotado
+1 Factor II rotado
Dagoberto Salgado Horta Página 138
Métodos de rotación ortogonal
En la práctica el objetivo de todos los métodos de rotación es simplificar las
filas y columnas de la matriz de factores para facilitar la interpretación. En una
matriz de factores las columnas representan factores, con cada renglón
correspondiente a la ponderación de las variables a través de los factores. Al
simplificar los renglones, se hacen tantos valores en cada fila tan cercanos a
cero como sea posible (i.e. maximizando la ponderación de una variable con un
factor único). Simplificando las columnas, se hacen tantos valores en las
columnas tan cercanos a cero como sea posible (i.e. hacer el máximo número
de ponderaciones ―altas‖ como sea posible). Se han desarrollado tres métodos
para lo anterior como sigue:
Quartimax: para simplificar las filas de la matriz; o sea, que Quartimax se
enfoca a rotar los factores iniciales de manera que las variables tengan la
mayor ponderación posible de un factor y la mínima de los otros. Aunque este
método no ha sido eficiente.
Varimax: se centra en simplificar las columnas de la matriz factorial. La
máxima simplificación posible se logra cuando solo hay 1’s y 0’s en la columna.
Es decir que VARIMAX maximiza la suma de variancias de ponderaciones
requeridas de la matriz factorial. Este método ha probado ser un método
analítico efectivo para obtener una rotación ortogonal de factores.
Equimax:
Es un compromiso entre las anteriores. Trata de simplificar los renglones y las
columnas, no se utiliza frecuentemente.
Métodos de rotación oblicua:
Estos métodos son similares a las rotaciones ortogonales excepto que permiten
factores correlacionados en vez de mantener la independencia de los factores
rotados.
Dagoberto Salgado Horta Página 139
En general no hay reglas para seleccionar uno de los métodos anteriores.
Criterios para la significancia de ponderación de factores en las variables
De manera práctica si las ponderaciones son de 0.30 se considera que
cumplen el nivel mínimo; ponderaciones de 0.40 son importantes; 0.50 o
mayores son significativas en la práctica. Como la ponderación del factor es la
correlación de la variable y el factor, la ponderación al cuadrado es la cantidad
representada de la varianza total por el factor. De esta forma con 0.3 se tiene
un 10% de explicación y un 0.5 de ponderación denota que un 25% de la
varianza es representada por el factor.
Evaluando la significancia estadística
Con base en un nivel de significancia de 0.05, un nivel de potencia del 80% y
errores estándar asumidos se el doble de los coeficientes de correlación
convencionales, se tiene la tabla siguiente:
Ponderación del factor
Tamaño de muestra requerida para tener significancia
0.30 350
0.35 300
0.40 250
0.45 200
0.50 150
0.55 100
0.60 85
0.65 70
0.70 60
Resumiendo las guías para la significancia de los factores son:
(1) entre mayor sea el tamaño de muestra, el valor de ponderación
significativo se reduce.
(2) Entre más variables sean consideradas en el análisis, más pequeña es
la ponderación que se considera significativa.
Dagoberto Salgado Horta Página 140
(3) Entre más factores haya, mayor es la ponderación en los factores
adicionales para que sea considerada significativa.
Cada columna de números en la matriz representa un factor por separado. Las
columnas de números representan las ponderaciones para cada una de las
variables. Identificar la más alta ponderación para cada variable. Recordar que
para tamaños de muestra similares a 100 se considera significante 0.3. La
comunalidad para cada variable representa la cantidad de varianza
considerada por la solución factorial para cada variable. Evaluar la comunalidad
de las variables, es decir identificar las que tengan más del 50%, ya que las
que tengan menos no tienen suficiente explicación. El nombre de los factores
se desarrolla de manera intuitiva, con base en las variables con una mayor
ponderación se consideran más importantes y tienen una mayor influencia para
el nombre seleccionado para representar al factor.
Validación del análisis factorial
Se trata de evaluar el grado de generalización de los resultados en la población
y la influencia potencial de casos individuales en los resultados totales.
El alfa de Cronbach es una medida del coeficiente de confiabilidad que evalúa
la consistencia de toda la escala. Este índice es la relación positiva del número
de ítems en la escala, donde 0.7 se considera adecuado.
Dagoberto Salgado Horta Página 141
Ejemplo con datos de alimentos:
Continuando con el ejemplo del análisis de componentes que se realizó en el
capítulo anterior para el caso de alimentos en diferentes países, se identificaron
dos componentes principales que excedían un eigenvalor de 1.0, como sigue:
Factor Number
Eig
en
va
lue
987654321
4
3
2
1
0
Scree Plot of RMEAT, ..., FR-VEG
Parte del archivo de datos se muestra a continuación:
País RMEAT WMEAT EGGS MILK FISH CERL STARCH NUTS FR-VEG
X1 X2 X3 X4 X5 X6 X7 X8 X9
1 10.1 1.4 0.5 8.9 0.2 42.3 0.6 5.5 1.7
2 8.9 14 4.3 19.9 2.1 28 3.6 1.3 4.3
Etc.
Las instrucciones de Minitab son las siguientes:
1 Cargar los datos de tabla de alimentos.
2 Stat > Multivariate > Factor Analysis.
3 En Variables, X1, X2, X3, X4, X6, X7, X8, X9
4 En Number of factors to extract, 4.
5 En Method of Extraction, seleccionar Principal components
6 En Type of Rotation, seleccionar Varimax.
7 Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.
8 Click Results y seleccionar Sort loadings.
Dagoberto Salgado Horta Página 142
9 Seleccionar Storage e indicar columnas para ponderaciones,
coeficientes, Z’s, eigenvalores, etc.
10 Click OK en cada uno de los cuadros de diálogo.
Los resultados se muestran a continuación:
Factor Analysis: RMEAT, WMEAT, EGGS, MILK, FISH, CERL, STARCH, NUTS, FR-VEG Principal Component Factor Analysis of the Correlation Matrix
Los eigenvalores para los factores 1 y 2 son los siguientes:
Eigenvalues Factores
4.00644 F1
1.63500 F2
1.12792 F3
0.95466 F4
Unrotated Factor Loadings and Communalities
Con los eigenvalores anteriores, se determina el modelo factorial: Unrotated Factor Loadings and Communalities
Variable Factor1 Factor2 Factor3 Factor4 Communality
X1 RMEAT -0.606 0.072 0.316 0.632 0.871
X2 WMEAT -0.622 0.303 -0.663 -0.036 0.918
X3 EGGS -0.854 0.045 -0.193 0.306 0.862
X4 MILK -0.756 0.236 0.410 -0.003 0.795
X5 FISH -0.272 -0.827 0.341 -0.211 0.919
X6 CERL 0.876 0.299 -0.102 -0.006 0.867
X7 STARCH -0.595 -0.451 -0.258 -0.329 0.732
X8 NUTS 0.841 -0.183 0.058 0.323 0.849
X9 FR-VEG 0.221 -0.686 -0.433 0.451 0.910
Variance 4.0064 1.6350 1.1279 0.9547 7.7240
% Var 0.445 0.182 0.125 0.106 0.858
La comunalidad de X1 RMEAT = 0.871 se calcula de la manera siguiente:
0.871 = 0.606^2+0.072^2+0.316^2+0.632^2
Como las comunalidades son relativamente altas (cercanas a la unidad), indica
que la mayor parte de la varianza para las variables X1 a X9 se acumula en los
factores F1 a F4.
Las ponderaciones de los factores que son mayores a |0.5|, sin importar el
signo, se analizan para mostrar como se relacionan las variables con los
factores. Se puede observar que: la variable X1 se explica fuertemente por los
Dagoberto Salgado Horta Página 143
factores F1 y F4; la variable X2 se explica por los factores F1 y F3; las
variables X2 X3, X4, X6, X7 y X8 se relacionan fuertemente al factor 1 y X5 y
X9 al factor 2. Esto sugiere que una rotación puede ayudar a definir los
factores.
Rotated Factor Loadings and Communalities
Varimax Rotation
Variable Factor1 Factor2 Factor3 Factor4 Communality
X1 RMEAT 0.051 -0.931 0.014 0.037 0.871
X2 WMEAT 0.943 -0.127 -0.100 0.050 0.918
X3 EGGS 0.628 -0.664 0.163 0.020 0.862
X4 MILK 0.197 -0.610 0.219 0.579 0.795
X5 FISH -0.226 -0.088 0.921 -0.104 0.919
X6 CERL -0.395 0.549 -0.624 -0.145 0.867
X7 STARCH 0.515 -0.004 0.683 -0.026 0.732
X8 NUTS -0.638 0.263 -0.326 -0.515 0.849
X9 FR-VEG -0.010 0.003 0.178 -0.937 0.910
Variance 2.2054 2.0749 1.9273 1.5165 7.7240
% Var 0.245 0.231 0.214 0.168 0.858
Sorted Rotated Factor Loadings and Communalities
Variable Factor1 Factor2 Factor3 Factor4 Communality
WMEAT 0.943 -0.127 -0.100 0.050 0.918
NUTS -0.638 0.263 -0.326 -0.515 0.849
RMEAT 0.051 -0.931 0.014 0.037 0.871
EGGS 0.628 -0.664 0.163 0.020 0.862
MILK 0.197 -0.610 0.219 0.579 0.795
FISH -0.226 -0.088 0.921 -0.104 0.919
STARCH 0.515 -0.004 0.683 -0.026 0.732
CERL -0.395 0.549 -0.624 -0.145 0.867
FR-VEG -0.010 0.003 0.178 -0.937 0.910
Variance 2.2054 2.0749 1.9273 1.5165 7.7240
% Var 0.245 0.231 0.214 0.168 0.858
En este caso las variables X3, X4, X6, X7 y X8 se explican al menos por dos factores, lo cual es mejor.
Dagoberto Salgado Horta Página 144
First Factor
Se
co
nd
Fa
cto
r
1.000.750.500.250.00-0.25-0.50
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
FR-VEG
NUTS
STARCH
CERL
FISH
MILKEGGS
WMEAT
RMEAT
Loading Plot of RMEAT, ..., FR-VEG
Dagoberto Salgado Horta Página 145
El modelo queda como sigue:
Factor Score Coefficients
Variable Factor1 Factor2 Factor3 Factor4
RMEAT -0.208 -0.666 -0.175 -0.154
WMEAT 0.580 0.134 -0.188 -0.123
EGGS 0.217 -0.297 -0.095 -0.184
MILK -0.130 -0.248 0.043 0.328
FISH -0.256 0.037 0.578 0.005
CERL -0.027 0.158 -0.252 -0.004
STARCH 0.259 0.254 0.369 -0.038
NUTS -0.238 -0.128 -0.124 -0.292
FR-VEG 0.103 -0.144 0.040 -0.719
Obteniendo las graficas de Z1 vs. Z2 y Z3 vs. Z4 con los valores de los
coeficientes de los factores se tiene:
Z1 Z2 Z3 Z4
-2.08984 0.21229 -1.48719 0.91607
1.51952 -0.14373 -0.67295 -0.04645
0.54271 -0.78648 0.18603 -0.22398
-0.67265 0.77630 -1.57884 -0.08663
1.12632 0.60458 -0.33966 0.02184
0.28382 -0.24185 1.21441 1.14642
1.45824 0.86238 0.78301 0.03869
-0.67673 -0.14921 0.93845 2.29981
0.03566 -1.84164 0.00237 -1.24522
-1.73291 -0.89465 -0.40999 -1.39879
1.07856 1.20405 -1.09708 -0.64712
0.84733 -1.15498 -0.08258 0.51667
-0.62204 -0.37440 -0.59829 -1.17455
1.20389 -0.18081 -0.31569 0.37021
-0.87260 0.00189 1.50818 1.24280
1.07154 0.81779 0.25040 -0.66725
-1.02013 1.36441 2.63942 -1.71648
-0.51952 1.25002 -1.03438 0.40083
-0.48351 0.41424 1.05124 -1.81043
-0.27184 -0.39239 0.76534 1.37725
0.10789 -1.21314 -0.71597 -0.11354
-0.53941 -2.17878 -0.17044 -0.12795
-0.34330 0.78311 0.21603 0.63639
1.23608 -0.44858 0.05799 0.00754
-0.66709 1.70958 -1.10980 0.28389
Dagoberto Salgado Horta Página 146
Z1
Z2
210-1-2
2
1
0
-1
-2
Yugoslavia
Alemania Occ
Rusia
Reino Unido
Suiza
Suecia
España
RumaniaPortugal
Polonia
NoruegaHolanda
Italia
Irlanda
Hungría
Grecia
Francia
Finlandia
Alemania orien
Dinamarca
ChecaBulgaria
Bélgica
Autria
Albania
Scatterplot of Z2 vs Z1
Z3
Z4
3210-1-2
2
1
0
-1
-2
Yugoslavia
Alemania Occ
Rusia
Reino Unido
Suiza
Suecia
España
Rumania
Portugal
Polonia
Noruega
Holanda
Italia
Irlanda
Hungría
GreciaFrancia
Finlandia
Alemania orien
Dinamarca
ChecaBulgaria
BélgicaAutria
Albania
Scatterplot of Z4 vs Z3
Z3
Z2
3210-1-2
2
1
0
-1
-2
Yugoslavia
Alemania Occ
Rusia
Reino Unido
Suiza
Suecia
España
RumaniaPortugal
Polonia
NoruegaHolanda
Italia
Irlanda
Hungría
Grecia
Francia
Finlandia
Alemania orien
Dinamarca
ChecaBulgaria
Bélgica
Autria
Albania
Scatterplot of Z2 vs Z3
Dagoberto Salgado Horta Página 147
Z4
Z1
210-1-2
2
1
0
-1
-2
Yugoslavia
Alemania Occ
Rusia
Reino Unido
Suiza
Suecia
España Rumania
Portugal
Polonia
Noruega
Holanda
Italia
IrlandaHungría
Grecia
Francia
Finlandia
Alemania orien
Dinamarca
Checa
Bulgaria
Bélgica
Autria
Albania
Scatterplot of Z1 vs Z4
Dagoberto Salgado Horta Página 148
Ejemplo con datos de HATCO
Prueba de la adecuación del modelo, utilizando Minitab: 1. Stat > Basic statistics > Correlation
2. Variables X1, X2, X3, X4, X6, X7
3. Display p values
4. OK
Correlations: X1, X2, X3, X4, X6, X7 X1 X2 X3 X4 X6
X2 -0.349
0.000
X3 0.476 -0.472
0.000 0.000
X4 0.050 0.272 -0.095
0.618 0.006 0.347
X6 0.077 0.186 -0.015 0.788
0.446 0.064 0.880 0.000
X7 -0.483 0.470 -0.407 0.200 0.177
0.000 0.000 0.000 0.046 0.078
Cell Contents: Pearson correlation
P-Value
De la matriz, 7 de 15 correlaciones son significativas estadísticamente. El valor
de MSA de 0.665 cumple con con el criterio para aplicar el análisis factorial.
Análisis factorial con Minitab:
Las instrucciones de Minitab son las siguientes:
1 Cargar los datos de HATCO.
2 Stat > Multivariate > Factor Analysis.
3 En Variables, X1, X2, X3, X4, X6, X7
4 En Number of factors to extract, 2.
6 En Method of Extraction, seleccionar Principal components
6 En Type of Rotation, seleccionar Varimax.
Dagoberto Salgado Horta Página 149
7 Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.
8 Click Results y seleccionar Sort loadings. Click OK en cada uno de los cuadros de diálogo.
Los resultados se muestran a continuación:
Factor Analysis: X1, X2, X3, X4, X6, X7 Principal Component Factor Analysis of the Correlation Matrix
Unrotated Factor Loadings and Communalities
Variable Factor1 Factor2 Communality
X1 0.618 -0.517 0.649
X2 -0.763 0.079 0.588
X3 0.695 -0.357 0.610
X4 -0.502 -0.793 0.881
X6 -0.434 -0.827 0.873
X7 -0.761 0.170 0.609
Variance 2.4664 1.7425 4.2089
% Var 0.411 0.290 0.701
El primer factor contiene la mayor parte de la varianza y es un factor general
con alta ponderación en cada variable. Las ponderaciones para el segundo
factor muestra tres variables que también tiene alta ponderación (X1, X4 y X6).
La interpretación es sumamente difícil y sin significado, por lo que se debe
considerar la rotación de factores como sigue:
Rotated Factor Loadings and Communalities
Varimax Rotation
Variable Factor1 Factor2 Communality
X1 -0.783 0.188 0.649
X2 0.718 0.268 0.588
X3 -0.781 0.010 0.610
X4 0.097 0.934 0.881
X6 0.020 0.934 0.873
X7 0.758 0.186 0.609
Variance 2.3231 1.8858 4.2089
% Var 0.387 0.314 0.701
Las variables X1, X2 y X3 ponderación significativamente al factor 1 y las
variables X4 y X6 ponderación significativamente al factor 2.
Si se considera como punto de corte las ponderaciones con 0.55 o más, el
factor 1 tiene cuatro ponderaciones significativas y el factor 2 tiene 2. Para el
Dagoberto Salgado Horta Página 150
factor 1, se ven dos grupos de variables. Las primeras son el nivel de precios
(X2) y la calidad del producto (X7) ambas con signos positivos y varían como
conjunto. Las otras dos, tiempo de entrega (X1) y flexibilidad de precios (X3)
tienen signos negativos también varían como conjunto.
En el factor 1, ambos grupos varían en sentido contrario, tal vez este factor sea
el valor básico y representa un compromiso entre percepciones de precio o
calidad del producto y percepciones de tiempo de entrega y flexibilidad de
precios.
En el factor 2, la variable X4 (imagen de fabricación) y X6 (imagen de la fuerza
de ventas) tal vez se pueda agrupar en imagen, ambas variables tienen el
mismo signo, actuando en la misma dirección.
La variable X5 (servicio en general) no se incluyó en al análisis.
Se tienen ahora dos factores como combinación lineal de las variables para
efectos de realización de estudios:
Factor Score Coefficients
Variable Factor1 Factor2
X1 -0.356 0.154
X2 0.297 0.097
X3 -0.343 0.058
X4 -0.020 0.498
X6 -0.054 0.503
X7 0.320 0.050
Para verificar la validez del modelo se pueden hacer dos grupos de 50
observaciones y comparar sus matrices rotadas.
Data 1 – 50: Rotated Factor Loadings and Communalities
Varimax Rotation
Variable Factor1 Factor2 Communality
Dagoberto Salgado Horta Página 151
X1_1 -0.827 0.085 0.691
X2_1 0.603 0.376 0.506
X3_1 -0.686 -0.177 0.502
X4_1 0.156 0.919 0.869
X6_1 0.136 0.924 0.871
X7_1 0.702 0.201 0.533
Variance 2.0548 1.9178 3.9726
% Var 0.342 0.320 0.662
Data 51 – 100: Rotated Factor Loadings and Communalities
Varimax Rotation
Variable Factor1 Factor2 Communality
X1_2 0.741 -0.313 0.647
X2_2 -0.785 -0.190 0.652
X3_2 0.815 -0.154 0.688
X4_2 -0.041 -0.949 0.903
X6_2 0.052 -0.923 0.854
X7_2 -0.824 -0.154 0.703
Variance 2.5127 1.9338 4.4466
% Var 0.419 0.322 0.741
Como se ve las dos rotaciones VARIMAX son comparables en términos de
ponderaciones y comunalidades para las seis percepciones. Así se puede
asegurar que los resultados son estables dentro de la muestra.
De la gráfica Scree Plot con los Eigenvalores de los factores se tiene:
Factor Number
Eig
en
va
lue
654321
2.5
2.0
1.5
1.0
0.5
0.0
Scree Plot of X1, ..., X7
Sólo dos factores serán mantenidos si se toma como referencia el Eigenvalor
de 1 o tres si se toma como referencia el criterio Scree.
La gráfica de ponderaciones por variables se muestra a continuación,
identificando tres grupos de variables:
Dagoberto Salgado Horta Página 152
First Factor
Se
co
nd
Fa
cto
r
0.50.0-0.5-1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
X7
X6 X4
X3
X2
X1
Loading Plot of X1, ..., X7
En resumen se identifican dos dimensiones Valor básico e Imagen, ahora se
pueden hacer planes alrededor de estas dos dimensiones en lugar de
considerar todas las variables separadas.
Ejemplo con datos del archivo EXH_MVAR
Se registran las siguientes características de 14 regiones censadas: población
total (Pop), promedio de escolaridad (School), empleo total (Employ), empleo
en servicios de salud (Health), y valor promedio de casa (Home). Se desea
investigar que ―factores‖ podrían explicar la mayor parte de la variabilidad.
Como primer paso del análisis factorial, se usa el método de extracción de
componentes principales y se examina la gráfica de eigenvalores (Scree) para
apoyarnos en decidir sobre el número de factores.
Pop School Employ Health
5.935 14.2 2.265 2.27
1.523 13.1 0.597 0.75
2.599 12.7 1.237 1.11
4.009 15.2 1.649 0.81
4.687 14.7 2.312 2.5
8.044 15.6 3.641 4.51
2.766 13.3 1.244 1.03
6.538 17 2.618 2.39
6.451 12.9 3.147 5.52
3.314 12.2 1.606 2.18
Dagoberto Salgado Horta Página 153
3.777 13 2.119 2.83
1.53 13.8 0.798 0.84
2.768 13.6 1.336 1.75
6.585 14.9 2.763 1.91
Las instrucciones de Minitab son las siguientes:
1 Abrir la worksheet EXH_MVAR.MTW.
2 Stat > Multivariate > Factor Analysis.
3 En Variables, poner Pop-Home.
4 Click Graphs y seleccionar Scree plot. Click OK in each dialog box.
Los resultados se muestran a continuación:
Factor Analysis: Pop, School, Employ, Health, Home Principal Component Factor Analysis of the Correlation Matrix
Unrotated Factor Loadings and Communalities
Variable Factor1 Factor2 Factor3 Factor4 Factor5 Communality
Pop -0.972 -0.149 0.006 0.170 -0.067 1.000
School -0.545 -0.715 -0.415 -0.140 0.001 1.000
Employ -0.989 -0.005 0.089 0.083 0.085 1.000
Health -0.847 0.352 0.344 -0.200 -0.022 1.000
Home 0.303 -0.797 0.523 0.005 0.002 1.000
Variance 3.0289 1.2911 0.5725 0.0954 0.0121 5.0000
% Var 0.606 0.258 0.114 0.019 0.002 1.000
Factor Score Coefficients
Variable Factor1 Factor2 Factor3 Factor4 Factor5
Pop -0.321 -0.116 0.011 1.782 -5.511
School -0.180 -0.553 -0.726 -1.466 0.060
Employ -0.327 -0.004 0.155 0.868 6.988
Health -0.280 0.272 0.601 -2.098 -1.829
Home 0.100 -0.617 0.914 0.049 0.129
Dagoberto Salgado Horta Página 154
Factor Number
Eig
en
va
lue
54321
3.0
2.5
2.0
1.5
1.0
0.5
0.0
Scree Plot of Pop, ..., Home
Interpretación de resultados
Cinco factores describen estos datos perfectamente, pero la meta es reducir el
número de factores requeridos para explicar la variabilidad de los datos. La
proporción de la variabilidad explicada por los dos últimos factores es mínima
(0.019 y 0.002 respectivamente) y pueden ser eliminadas sin afectar al
resultado. Los primeros dos factores juntos representan 86% de la variabilidad
mientras que tres factores representan 98% de la variabilidad. La cuestión es si
usar dos o tres factores, se requieren otras corridas para decidir si usar dos o
tres factores.
Se seleccionan dos factores como el número que representa los datos del
censo en base al análisis de componentes principales. Se realiza una
extracción de máxima verisimilitud y rotación varimax para interpretar los
factores.
Las instrucciones de Minitab son las siguientes:
1 Abrir la worksheet EXH_MVAR.MTW.
2 Stat > Multivariate > Factor Analysis.
3 En Variables, Pop-Home.
4 En Number of factors to extract, 2.
5 En Method of Extraction, seleccionar Maximum likelihood.
Dagoberto Salgado Horta Página 155
6 En Type of Rotation, seleccionar Varimax.
7 Click Graphs y seleccionar Loading plot for first 2 factors.
8 Click Results y seleccionar Sort loadings. Click OK en cada uno de los
cuadros de diálogo.
Los resultados se muestran a continuación:
Factor Analysis: Pop, School, Employ, Health, Home Maximum Likelihood Factor Analysis of the Correlation Matrix
* NOTE * Heywood case
Unrotated Factor Loadings and Communalities
Variable Factor1 Factor2 Communality
Pop 0.971 0.160 0.968
School 0.494 0.833 0.938
Employ 1.000 0.000 1.000
Health 0.848 -0.395 0.875
Home -0.249 0.375 0.202
Variance 2.9678 1.0159 3.9837
% Var 0.594 0.203 0.797
Rotated Factor Loadings and Communalities
Varimax Rotation
Variable Factor1 Factor2 Communality
Pop 0.718 0.673 0.968
School -0.052 0.967 0.938
Employ 0.831 0.556 1.000
Health 0.924 0.143 0.875
Home -0.415 0.173 0.202
Variance 2.2354 1.7483 3.9837
% Var 0.447 0.350 0.797
Sorted Rotated Factor Loadings and Communalities
Variable Factor1 Factor2 Communality
Health 0.924 0.143 0.875
Employ 0.831 0.556 1.000
Pop 0.718 0.673 0.968
Home -0.415 0.173 0.202
School -0.052 0.967 0.938
Variance 2.2354 1.7483 3.9837
% Var 0.447 0.350 0.797
Factor Score Coefficients
Variable Factor1 Factor2
Pop -0.165 0.246
School -0.528 0.789
Employ 1.150 0.080
Health 0.116 -0.173
Dagoberto Salgado Horta Página 156
Home -0.018 0.027
First Factor
Se
co
nd
Fa
cto
r
1.000.750.500.250.00-0.25-0.50
1.0
0.8
0.6
0.4
0.2
0.0
HomeHealth
Employ
School
Pop
Loading Plot of Pop, ..., Home
Estos resultados indican un caso Heywood (las varianzas menores al límite de
convergencia especificado se ponen a cero y sus comunalidades a 1).
Se tienen tres tablas de ponderaciones y comunalidades: no rotadas, rotadas,
ordenadas y rotadas. Los factores no rotados explican el 79.7 de la variabilidad
de los datos y los valores de comunalidad indican que todas las variables sin
Home están bien representadas por esos dos factores (comunalidad son 0.202
para Home, 0.875 – 1.0 para otras variables). El porcentaje de la variabilidad
total representada por los factores no cambia con la rotación, sino después de
rotar, pero después de rotar, estos factores son mas claramente balanceados
en el porcentaje de variabilidad que ellos representan, siendo 44.7% y 35%,
respectivamente.
El ordenamiento es realizado por la ponderación máxima absoluta para
cualquier factor. Las variables que tienen la mayor ponderación absoluta en el
factor 1 se muestran primero en orden. Después las variables con la
ponderación mayor en el factor 2 y así sucesivamente. El factor 1 tiene su
ponderación mayor positiva en Health (0.924), Employ (0.831) y Pop (0.718), y
-0.415 en Home, mientras que la ponderación en School es baja. El factor 2
tiene una ponderación positiva en School de 0.967 y ponderación de 0.556 y
Dagoberto Salgado Horta Página 157
0.673 en Employ y Pop respectivamente, y una ponderación pequeña en
Health y Home.
Se pueden ver las ponderaciones rotadas gráficamente en la gráfica de
ponderaciones (load graph). Ahí se muestra para factor 1 con ponderaciones
altas en Pop, Emply, y Health y ponderación negativa en Home. School tiene
una ponderación alta positiva para el factor 2 y algo menor para Pop y Employ.
De los resultados se puede pensar en que el factor 1 sea un factor relacionado
con ―Cuidado de la salud – tamaño de la población‖. El factor 2 puede ser
considerado como un factor relacionado con ―educación – tamaño de la
población‖.
En forma adicional Minitab muestra una tabla de coeficientes del factor.
Muestran como se calculan los factores. Minitab calcula los valores
multiplicando los coeficientes y los datos después de corregirlos centrándolos
al restarle sus medias.
Dagoberto Salgado Horta Página 158
10. ANÁLISIS DE REGRESIÓN MÚLTIPLE
Dagoberto Salgado Horta Página 159
10. ANÁLISIS DE REGRESIÓN MÚLTIPLE
Es una técnica estadística que se puede usar para analizar la relación entre
una variable dependiente simple (respuesta, criterio) y varias variables
independientes cuyos valores son conocidos para predecir la variable
dependiente. Los pesos denotan la contribución relativa de las variables
independientes a la predicción general y facilitar la interpretación de la
influencia de cada variable en la predicción, lo que se complica si hay
correlación de las variables independientes.
El conjunto de variables independientes con sus pesos forma la Variate de
regresión, ecuación de regresión o modelo de regresión, que es una
combinación lineal de las variables independientes que mejor predicen la
variable dependiente.
Los supuestos de un análisis de regresión múltiple son los siguientes:
Linealidad del fenómeno medido
Varianza constante de los términos de error
Independencia de los términos de error
Normalidad de la distribución de los términos de error.
Términos clave
Coeficiente ajustado de determinación (R2 ajustada): Es una métrica
modificada del coeficiente de determinación que toma en cuenta el
número de variables independientes incluidas en la ecuación de
regresión y el tamaño de muestra. A pesar de que la adición de variables
independientes hace que se incremente el coeficiente de determinación,
el coeficiente de determinación ajustado se reduce si las variables
independientes tienen poco poder explicativo y/o si los grados de
libertad son muy pequeños. Este estadístico es útil para comparar
ecuaciones con diferentes números de variables independientes, con
diferentes tamaños de muestra, o ambos.
Regresión con todos los posibles subconjuntos: Método de
selección de variables en el modelo que considera todas las
Dagoberto Salgado Horta Página 160
combinaciones posibles de las variables independientes. Por ejemplo
para cuatro variables, se estiman modelos para una, dos, tres y cuatro
variables, identificando el modelo con la mayor capacidad predictiva.
Eliminación hacia atrás: Método de selección de variables en el
modelo que inicia con todas las combinaciones posibles de las variables
independientes para ir eliminando las que no tienen una contribución
significativa a la predicción.
Coeficiente beta: Coeficientes estandarizados de la regresión que
permite una comparación directa de su potencia relativa explicatoria de
la variable dependiente.
Coeficiente de determinación (R2): Mide la proporción de la varianza
de la variable dependiente alrededor de su media que es explicada por
las variables predictoras independientes. El coeficiente puede variar
entre 0 y 1. Entre mayor sea su valor es mejor la predicción de la
variable dependiente.
Colinealidad: Expresión de la relación entre dos (colinealidad) o entre
varias (multicolinealidad) variables independientes. Dos variables
independientes tienen colinealidad total si coeficiente de correlación es 1
y no tienen colinealidad si coeficiente de correlación es cero. La
multicolinealidad se presenta cuando una variable independiente está
muy correlacionada con otras variables independientes.
Coeficiente de correlación (r.): Coeficiente que indica la fuerza de la
asociación entre dos variables medibles. El signo (+) o (-) indica la
dirección de la relación. +1 o -1 indica una correlación perfecta positiva
(cuando aumenta una variable, aumenta la otra) o negativa (inversa –
cuando aumenta una variable, la otra disminuye) y 0 sin correlación.
Grados de libertad: En una regresión simple se estiman dos
parámetros, la intersección (b0) y el coeficiente de la regresión para la
variable independiente (b1). Por tanto los grados de libertad
proporcionan una medida de cómo se restringen los datos para alcanzar
un cierto nivel de predicción (n-2). Si el número de grados de libertad es
pequeño, la predicción resultante no puede generalizarse, esta será más
robusta con un valor alto de grados de libertad.
Dagoberto Salgado Horta Página 161
Variable ficticia: Es una variable independiente usada para contabilizar
el efecto que tienen diferentes niveles de una variable no medible al
predecir la variable dependiente. Para contabilizar los L niveles de una
variable independiente no medible, se requieren L-1 variables artificiales.
En el caso de Hombre – Mujer se requiere una variable X con valores 0
y 1; para tres niveles se requerirán dos variables X1 y X2.
Adición hacia delante: Método de selección de variables en el modelo
que inicia sin las variables independientes para ir agregándolas con
base en su contribución a la predicción.
Homoestacidad: Descripción de los datos para los cuales la varianza
de los términos de error (e ) aparece constante sobre el rango de valores
de la variable independiente. Cuando los términos de error tienen
varianza incremental o modulada, se dice que los datos tienen
Heteroestacidad.
Observación influyente: Es una observación que tiene una influencia
desproporcionada en uno o más aspectos de los estimados de la
regresión, puede ser basada en valores extremos de las variables
independientes y dependiente o ambas.
Outlier: Es una observación que tiene una diferencia significativa entre
el valor real de la variable dependiente y el valor de predicción. Los
casos que son muy diferentes ya sea en sus variables independientes o
dependiente. Deben analizarse para poder eliminarlas.
Coeficiente de correlación parcial: Valor que mide la fuerza de la
relación entre la variable dependiente o criterio y una única variable
independiente manteniendo constante los efectos de las otras variables
independientes. Es útil para identificar la variable independiente con la
mayor capacidad predictiva incremental. Se le asocian los estadísticos
parciales de F y t así como su gráfica de regresión parcial.
Potencia: Probabilidad de que se tenga una relación significativa si
realmente existe. Complementa el nivel de significancia Alfa.
Error de predicción: Diferencia entre los valores reales y estimados de
la variable dependiente para cada observación en la muestra (residuos).
Dagoberto Salgado Horta Página 162
Estadístico PRESS: Medida de validación obtenida al eliminar cada
observación una a la vez y estimando su valor dependiente con el
modelo de regresión estimado con las observaciones remanentes.
Variable de Regresión (variate): Combinación lineal de variables
independientes ponderadas usadas para predecir la variable
dependiente.
Error estándar: El valor t de un coeficiente de regresión se obtiene
cuando se divide el valor del coeficiente entre el error estándar.
Estimación por pasos: Método de seleccionar variables para inclusión
en el modelo de regresión que inicia seleccionando el mejor predictor de
la variable dependiente. Las variables independientes adicionales se
seleccionan con base de su potencia explicatorio incremental que
pueden agregar al modelo de regresión (o en base a sus coeficientes de
correlación significativos estadísticamente). También se pueden eliminar
variables independientes si su potencia predictiva se reduce a niveles no
significativos cuando se agrega otra variable independiente al modelo.
Residuo estudentizado: Para minimizar el efecto de un outlier simple,
se calcula la desviación estándar del residuo para la observación i de los
estimados de la regresión omitiendo la observación i-ésima.
Tolerancia: Es una medida de colinealidad y multicolinealidad, es:
*2
1i
RTOLi
*2
iR es el coeficiente de determinación para la variable de predicción i por
las otras variables independientes. Conforme disminuye el valor de la
tolerancia la variable es mejor estimada por las otras variables
independientes (colinealidad).
Factor de inflación de varianza (VIF): es un indicador del efecto que
las otras variables independientes tienen en el error estándar de un
coeficiente de regresión. El factor de inflación de varianza está
directamente relacionado al valor de la tolerancia (VIFi = 1 / TOLi).
Valores grandes de VIF también indican un alto grado de colinealidad o
multicolinealidad entre las variables independientes.
Dagoberto Salgado Horta Página 163
Fórmulas:
La ecuación de regresión simple es:
110ˆ VbbY
Donde: bo = Término de intercepción b1 = coeficiente de la regresión. Error de predicción o residuo = diferencia entre valor real y estimado de la variable dependiente.
El error estándar del estimado se determina como:
2
n
SSESEE
Con SSE = Suma de cuadrados del error.
n = tamaño de la muestra
El intervalo de confianza de predicción se determina como:
SEEtYIC *ˆ
La suma de cuadrados total es:
SSESSRSST
n
i
n
i
iii
n
i
iyyyyyy
1 1
22
1
2)ˆ()ˆ()(
y = promedio de todas las observaciones
iy = valor de la observación individual i
y = valor estimado de la observación i
El coeficiente de determinación se calcula como sigue:
SST
SSRR
2
Para el caso de la regresión múltiple se tiene:
eVbVbbY 22110
ˆ
Para probar la significancia de la regresión se utiliza el estadístico F:
dfeSSE
dfrSSR
F
Dagoberto Salgado Horta Página 164
Cada suma de cuadrados dividida entre sus grados de libertad representa la
varianza.
DIAGNÓSTICO AVANZADO
Índice de condición: Medición de la cantidad de varianza asociada con un
Eigenvalor (valor característico) de manera que un índice grande indica un
alto grado de colinealidad.
Distancia de Cook (Di): Medida resumida de la influencia de una
observación simple con base en los cambios totales en todos los demás
residuos cuando la observación se excluye del proceso de estimación. Los
valores mayores a 1 indican influencia significativa de la observación en la
estimación de los coeficientes de la regresión.
COVRATIO (razón de covarianza): Mide la influencia de una observación
simple en conjunto completo de coeficientes de la regresión. Un valor
cercano a 1 indica poca influencia, si (COVRATIO – 1) > 3 p/n (p es el
número de variables independientes +1 y n es el tamaño de muestra), la
observación se considera que tiene influencia.
Residuo excluido (deleted residual): Es el proceso de calcular residuos
en los cuales la influencia de cada una de las observaciones se excluye
cuando se calcula su residuo. Esto se logra al omitir la i-ésima observación
de la ecuación de regresión usada para calcular el valor estimado Y.
DFBETA: Mide el cambio en un coeficiente de la regresión cuando una
observación se omite del análisis de la regresión, se establece en términos
del coeficiente mismo, también se puede tener una versión estandarizada
SDBETA, donde sus valores son ajustados por sus errores estándar, se
definen cortes en 1 o 2 correspondientes a niveles de confianza de 0.10 y
0.05 respectivamente.
DFFIT: Mide el impacto de una observación en el ajuste general del modelo,
con una versión estandarizada DFFIT. La mejor regla práctica es clasificar
como influenciables cualquier valor SDFFIT > 2 / raìz(p/n). p es el número
de variables independientes +1 y n es el tamaño de muestra.
Eigenvalor (valor característico): Mide la cantidad de varianza contenida
en la matriz de correlación de manera que la suma de los eigenvalores es
Dagoberto Salgado Horta Página 165
igual al número de variables. También se conoce como raíz latente o raíz
característica.
Matriz sombrero: Matriz que contiene valores para cada observación en la
diagonal conocida como matriz sombrero, que representan el impacto de la
variable dependiente observada en su valor estimado por la regresión. Si
todas las observaciones tuvieran la misma influencia, tendrían un valor de
p/n. Si una observación no tiene influencia, su valor será -1/n, y cuando un
valor domina valdrá (n-1)/n. Los valores que exceden a 2p/n para muestra
grandes o 3p/n para muestras pequeñas (n<= 30) son candidatos como
observaciones influyentes.
Punto palanca (leverage point): Una observación que tiene un impacto
sustancial en los resultados de la regresión dadas sus diferencias con otras
observaciones en una o más de las variables independientes. La medida
más común de estos puntos es el valor sombrero contenido en la matriz
sombrero.
Distancia de Malahanobis (D2): Medida de la singularidad de una
observación simple con base en las diferencias entre los valores de la
observación y los valores promedio para todos los otros casos de las
variables independientes. La influencia en la regresión por la observación es
diferente para una o más variables predictoras, causando un corrimiento en
la ecuación de regresión.
Outlier (punto aberrante o lejano): Es una observación que tiene una
diferencia sustancial entre sus valores observados y estimados en la
variable dependiente (un residuo grande) o entre sus variables
independientes y los de otras observaciones. El objetivo de identificarlos es
que pueden representar de manera inapropiada el comportamiento de la
población.
Matriz de descomposición – varianza de los coeficientes de regresión:
Método para determinar la contribución relativa de cada uno de los
eigenvalores a cada uno de los coeficientes estimados. Si dos o más
coeficientes están muy asociados con un eigenvalor simple (índice de
condición) indica que está presente un nivel inaceptable de
multicolinealidad.
Dagoberto Salgado Horta Página 166
Residuo: Medida de la estimación predictiva de una observación simple,
calculado como la diferencia del valor observado y el valor estimado de la
variable dependiente. Se asume que los residuos tienen media cero y
varianza constante. También sirven para identificar outliers y observaciones
influenciables.
Residuos estandarizados: Reescalado de los residuos a una base común
dividiendo cada uno de los residuos entre la desviación estándar de los
residuos. De esta manera los residuos estandarizados tienen una media de
cero y una desviación estándar de uno. Los outliers son identificados como
las observaciones que tienen residuos mayores a 1 o 2 para niveles de
confianza de 0.10 y 0.05 respectivamente.
Residuos estudentizados: Difieren del residuo estandarizado en la forma
de calcular la desviación estándar. Para minimizar la influencia de un outlier
simple, la desviación estándar utilizada para estandarizar el residuo i-ésimo
se calcula de los estimados de la regresión excluyendo la observación i-
ésima. Esto se hace de manera repetitiva para cada una de las
observaciones, cada vez se excluye la observación de los cálculos.
Evaluado la multicolinealidad
Corrida con SPSS
Regression
Variables Entered/Removed(b)
Model Variables Entered Variables Removed Method
1 X7, X5, X6, X3, X2, X4, X1(a) . Enter
a All requested variables entered.
b Dependent Variable: X9
Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate
1 .879(a) .772 .755 4.4508
Dagoberto Salgado Horta Página 167
a Predictors: (Constant), X7, X5, X6, X3, X2, X4, X1
ANOVA(b)
Model Sum of Squares df Mean Square F Sig.
1
Regression 6177.812 7 882.545 44.552 .000(a)
Residual 1822.444 92 19.809
Total 8000.256 99
a Predictors: (Constant), X7, X5, X6, X3, X2, X4, X1
b Dependent Variable: X9
Coefficients(a)
Unstandardized Coefficients
Standardized Coefficients
t Sig.
Collinearity Statistics
Model B Std. Error
Beta
Tolerance VIF
1
(Constant) -9.255 4.949 -1.870 .065
X1 1.956 2.045 .287 .957 .341 .027 36.445
X2 1.280 2.155 .170 .594 .554 .030 33.176
X3 3.270 .406 .507 8.057 .000 .627 1.596
X4 -3.937E-03 .671 .000 -.006 .995 .347 2.884
X5 4.600 4.012 .384 1.147 .255 .022 45.401
X6 1.230 .954 .106 1.290 .200 .370 2.701
X7 .426 .356 .075 1.198 .234 .629 1.589
a Dependent Variable: X9
Collinearity Diagnostics(a)
Eigenvalue Condition Index
Variance Proportions
Model Dimension
(Constant) X1 X2 X3 X4 X5 X6 X7
1
1 7.533 1.000 .00 .00 .00 .00 .00 .00 .00 .00
2 .251 5.474 .00 .00 .01 .01 .00 .00 .00 .01
3 .106 8.426 .00 .01 .01 .00 .01 .00 .04 .04
4 6.548E-02 10.726 .01 .00 .00 .04 .03 .00 .18 .09
5 2.463E-02 17.489 .01 .01 .01 .31 .00 .00 .00 .53
Dagoberto Salgado Horta Página 168
6 1.219E-02 24.861 .03 .00 .00 .07 .75 .00 .67 .05
7 6.259E-03 34.692 .86 .00 .00 .52 .17 .00 .10 .28
8 8.354E-04 94.959 .09 .97 .97 .05 .04 .99 .01 .00
a Dependent Variable: X9
Ejemplo:
Familia Tarjetas Tamaño Ingreso
1 4 2 14
2 6 2 16
3 6 4 14
4 7 4 17
5 8 5 18
6 7 5 21
7 8 6 17
8 10 6 25
Total
Las instrucciones de Minitab para correr el ejemplo son:
1 Cargar datos 2 en Minitab.
2 Stat > Regression > Regression.
3 En Response, seleccionar Tarjetas.
4 En Predictors, seleccionar Tamaño e Ingreso.
5 Click Graphs.
6 En Residuals for Plots, seleccionar Standardized.
7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.
8 Click Options. en Display, seleccionar PRESS y predicted R-square. Click OK en cada uno de los cuadros de diálogo.
Los resultados se muestran a continuación:
Dagoberto Salgado Horta Página 169
Standardized Residual
Pe
rce
nt
3210-1-2-3
99
95
90
80
70
60
50
40
30
20
10
5
1
Normal Probability Plot of the Residuals(response is Tarjetas)
Regression Analysis: Tarjetas versus Tamaño, Ingreso The regression equation is
Tarjetas = 0.48 + 0.632 Tamaño + 0.216 Ingreso
Predictor Coef SE Coef T P
Constant 0.482 1.461 0.33 0.755
Tamaño 0.6322 0.2523 2.51 0.054
Ingreso 0.2158 0.1080 2.00 0.102
S = 0.780990 R-Sq = 86.1% R-Sq(adj) = 80.6%
PRESS = 8.02177 R-Sq(pred) = 63.54%
Analysis of Variance
Source DF SS MS F P
Regression 2 18.9503 9.4751 15.53 0.007
Residual Error 5 3.0497 0.6099
Total 7 22.0000
Source DF Seq SS
Tamaño 1 16.5143
Ingreso 1 2.4360
Interpretación de resultados
Salida de sesión
El valor P en la tabla de ANOVA (0.000) muestra que el modelo
estimado por el procedimiento de regresión es significativo a un alfa de
0.05, indicando que al menos un coeficiente es diferente de cero.
Dagoberto Salgado Horta Página 170
Los valores P de los coeficientes estimados para tamaño es de 0.054
indicando que es significativo a un nivel alfa de 0.054. Sugiriendo que el
modelo de regresión simple es adecuado.
El valor de R cuadrado indica que los predoctores explican el 87.4% de
la varianza en Tarjetas. La R cuadrada ajustada es 85.9%, que
representa la contribución del número de predictores en el modelo.
Ambos valores indican que el ajuste es adecuado.
El valor pronosticado R cuadrado es 78.96%, dado que es parecido a R
cuadrado y r cuadrado ajustado, el modelo no parece estar
sobreajustado y tiene una buena habilidad de predicción
Las observaciones 4 y 22 se identifican como no usuales dado que el
valor estandarizado de los residuos es mayor a 2. Indicando puntos
aberrantes o outliers.
Salida gráfica
El histograma de los residuos muestra un patrón consistente con la
distribución normal. El histograma es más efectivo para grupos de más
de 50 observaciones. La gráfica de probabilidad normal es más fácil de
interpretar con pequeñas muestras.
En la gráfica normal también sobresalen los outliers 4 y 22.
La gráfica de residuos contra valores de predicción muestra que los
residuos son más pequeños conforme los valores ajustados se
incrementan, indicando que no tienen varianza constante.
Dagoberto Salgado Horta Página 171
Ejemplo con datos de Hatco
Hacer un estudio de correlación entre las variables independientes:
1 Cargar datos en Minitab.
2 Stat > Basic statistics > Correlation
3 Variables X1 – X7 X9 indicar Show P value
4 OK
Los resultados son los siguientes:
Correlations: X1, X2, X3, X4, X5, X6, X7, X9 X1 X2 X3 X4 X5 X6 X7
X2 -0.349
0.000
X3 0.476 -0.472
0.000 0.000
X4 0.050 0.272 -0.095
0.618 0.006 0.347
X5 0.612 0.513 0.064 0.299
0.000 0.000 0.524 0.003
X6 0.077 0.186 -0.015 0.788 0.241
0.446 0.064 0.880 0.000 0.016
X7 -0.483 0.470 -0.407 0.200 -0.055 0.177
0.000 0.000 0.000 0.046 0.586 0.078
X9 0.676 0.083 0.556 0.225 0.701 0.257 -0.192
0.000 0.412 0.000 0.024 0.000 0.010 0.055
Cell Contents: Pearson correlation
P-Value
La variable X5 (servicio en general) está más correlacionado con la respuesta
X9 con r = 0.701. X1 también está correlacionada con la respuesta sin embargo
tiene correlación con X5 por lo que el uso de ambas es cuestionable.
Las instrucciones de Minitab para correr el ejemplo son:
1 Cargar datos en Minitab.
2 Stat > Regression > Regression.
Dagoberto Salgado Horta Página 172
3 En Response, seleccionar X9 (utilización del producto).
4 En Predictors, seleccionar X1 – X7.
5 Click Graphs.
6 En Residuals for Plots, seleccionar Standardized.
7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.
Regression Analysis: X9 versus X1, X2, X3, X4, X5, X6, X7 The regression equation is
X9 = - 9.25 + 1.96 X1 + 1.28 X2 + 3.27 X3 - 0.004 X4 + 4.60 X5 + 1.23 X6
+ 0.426 X7
Predictor Coef SE Coef T P
Constant -9.255 4.949 -1.87 0.065
X1 1.956 2.045 0.96 0.341
X2 1.280 2.155 0.59 0.554
X3 3.2702 0.4059 8.06 0.000
X4 -0.0039 0.6714 -0.01 0.995
X5 4.600 4.012 1.15 0.255
X6 1.2305 0.9537 1.29 0.200
X7 0.4261 0.3557 1.20 0.234
S = 4.45075 R-Sq = 77.2% R-Sq(adj) = 75.5%
PRESS = 2144.13 R-Sq(pred) = 73.20%
Analysis of Variance
Source DF SS MS F P
Regression 7 6177.81 882.54 44.55 0.000
Residual Error 92 1822.44 19.81
Total 99 8000.26
Source DF Seq SS
X1 1 3659.76
X2 1 927.88
X3 1 1424.10
X4 1 80.48
X5 1 18.20
X6 1 38.97
X7 1 28.43
Unusual Observations
Obs X1 X9 Fit SE Fit Residual St Resid
7 4.60 46.000 58.734 1.379 -12.734 -3.01R
11 2.40 32.000 41.365 1.014 -9.365 -2.16R
14 3.70 38.000 47.833 1.098 -9.833 -2.28R
22 3.40 35.000 34.870 2.711 0.130 0.04 X
55 3.80 39.000 33.433 2.712 5.567 1.58 X
100 2.50 33.000 43.721 1.049 -10.721 -2.48R
R denotes an observation with a large standardized residual.
Dagoberto Salgado Horta Página 173
X denotes an observation whose X value gives it large influence.
Normplot of Residuals for X9
Standardized Residual
Pe
rce
nt
3210-1-2-3
99.9
99
95
90
80
7060504030
20
10
5
1
0.1
Normal Probability Plot of the Residuals(response is X9)
Fitted Value
Sta
nd
ard
ize
d R
esid
ua
l
6050403020
2
1
0
-1
-2
-3
Residuals Versus the Fitted Values(response is X9)
Dagoberto Salgado Horta Página 174
11. ANÁLISIS DE CORRESPONDENCIA
Dagoberto Salgado Horta Página 175
11. Análisis de correspondencia
A. Análisis de correspondencia simple
El análisis de correspondencia simple ayuda a explorar las relaciones en una
clasificación de dos vías. Puede operar también en tres vías y cuatro vías dado
que pueden reducirse a tablas de dos vías. Este procedimiento descompone
una tabla de contingencia de manera similar a como el análisis de
componentes principales descompone datos continuos multivariados. Se
realiza un análisis eigen de los datos, y la variabilidad es dividida en
dimensiones relevantes y asociada con renglones y/o columnas.
El análisis de correspondencia realiza un análisis de componentes principales
ponderados en una tabla de contingencia. Si la tabla tiene r renglones y c
columnas, el número de dimensiones relevantes es el más pequeño de (r-1) y
(c-1). Como con componentes principales, la variabilidad se divide, pero en
lugar de particionar la varianza total, el análisis de correspondencia simple
particiona el estadístico c2 de Pearson (similar al de la prueba de asociación).
Tradicionalmente, el análisis de correspondencia usa c2/n, denominado inercia
total o inercia, en lugar de c2. Las inercias asociadas con todos los
componentes principales se suman hasta la inercia total. Idealmente, los
primeros uno, dos o tres componentes deben contener la inercia total.
Los subespacios dimensionales más bajos se expanden por los componentes
principales. El primer eje principal se selecciona de manera que contenga la
mayor cantidad de inercia; el segundo eje principal se selecciona de manera
que contenga la mayor cantidad de la inercia remanente, etc. Los subespacios
son anidados, de modo que el mejor subes pació de una dimensión es un
subes pació del mejor subespacio de dos dimensiones, etc.
La coordenada principal para el perfil del renglón i y compnente (eje) k es la
coordenada de la proyección del perfil del renglón i en el componente k. Las
coordenadas del renglón estandarizado para el componente k son las
Dagoberto Salgado Horta Página 176
coordenadas principales para el componente k dividido por la raíz cuadrada de
la inercia k-ésima.
De igual manera, la coordenada principal para el perfil de la columna j y el
componente k es la coordenada de la proyección del perfil de columna j en el
componente k. Las coordenadas estandarizadas de columna para el
componente k son las coordenadas de la columna principal para el componente
k dividido por la k-ésima inercia.
La tabla de contingencia puede ser analizada en términos de perfiles de
renglones y columnas. Un perfil de renglón es una lista proporciones de renglón
que se calculan de los números de la tabla de contingencia. Específicamente,
el perfil del renglón i es (ni1/ni., ni2/ni.,….,nic/ni.). Un perfil de columna es una
lista de proporciones de columna, donde nij, es la frecuencia en el renglón i y la
columna j de la tabla y ni., es la suma de las frecuencias en el renglón i.
Específicamente, el perfil para la columna j es (n1j/n.j, n2j/n.,, …, nrj/n.j), donde
n.j, es la suma de las frecuencias en la columna j.
Los dos análisis son matemáticamente equivalentes, el que se seleccione es
que sea más natural para un análisis dado. En general, es interesante estudiar
como difieren los perfiles de renglón o de columna uno de otro.
Los perfiles de renglón son vectores de longitud c y por tanto se encuentran en
un espacio dimensional de c-dimensiones (de manera similar, los perfiles de
columna se encuentran en un espacio r-dimensional).
Como esta dimensión es normalmente alta para permitir una interpretación
fácil, se desea encontrar un espacio de menor dimensión (de preferencia no
más de dos o tres) que se encuentre cercano a todos los perfiles de renglones
(o puntos de perfiles de columnas). Después se pueden proyectar estos puntos
de los perfiles en el subespacio y estudiar las proyecciones. Si las
proyecciones son cercanas a los perfiles, no se pierde mucha información,
trabajando en dos o tres dimensiones permite estudiar los datos más fácilmente
y, en particular, permite examinar las gráficas. El proceso es similar a
Dagoberto Salgado Horta Página 177
seleccionar un número pequeño de componentes principales para resumir la
variabilidad de los datos continuos.
Si d = el más pequeño de (r-1) y (c-1), entonces los perfiles de renglón (o
perfiles equivalentes de columna) se encuentran en un subespacio d-
dimensional del espacio –c-dimensional completo (o su equivalente r-
dimensional completo). De ésta forma, hay a lo más d componentes.
Ejemplo:
Del texto de M. J. Greenacre, Correspondence Analysis in Practice, by p.75. 796
investigadores fueron clasificados en diez disciplinas académicas y cinco
categorías de fondos, A es la categoría más alta, D es la categoría más baja y
E es categoría sin fondeo. Las disciplinas son renglones y las categorías son
columnas. Se desea saber como las disciplinas se comparan unas con otras
respecto a las categorías de fondeo, se forma que se realiza un análisis de
correspondencia con una orientación a renglones.
Como información complementaria se incluye: un renglón para investigadores
de museos no incluida en el estudio y un renglón para matemáticas y
estadística.
Los datos colectados son los siguientes:
Archivo Tabl.Mtw
CT1 CT2 CT3 CT4 CT5 RowNames ColNames RowSupp1 RowSupp2 RSNames
3 19 39 14 10 Geology A 4 4 Museums
1 2 13 1 12 Biochemistry B 12 16 MathSci
6 25 49 21 29 Chemistry C 11 48
3 15 41 35 26 Zoology D 19 12
10 22 47 9 26 Physics E 7 27
3 11 25 15 34 Engineering
1 6 14 5 11 Microbiology
0 12 34 17 23 Botany
2 5 11 4 7 Statistics
2 11 37 8 20 Mathematics
Las instrucciones de Minitab son las siguientes:
Dagoberto Salgado Horta Página 178
1 Open worksheet EXH_TABL.MTW.
2 Stat > Multivariate > Simple Correspondence Analysis.
3 Seleccionar en Columns of a contingency table, CT1-CT5. En Row names, seleccionar RowNames. En Column names, seleccionar ColNames.
4 Click Results y seleccionar Row profiles. Click OK.
5 Click Supp Data. En Supplementary Rows, indicar RowSupp1 RowSupp2. En Row names, indicar RSNames. Click OK.
6 Click Graphs. Seleccionar Show supplementary points in all plots. Seleccionar Symmetric plot showing rows only y Asymmetric row plot showing rows and columns.
7 Click OK in each dialog box.
Los resultados se muestran a continuación:
Simple Correspondence Analysis: CT1, CT2, CT3, CT4, CT5
Perfiles por renglón: Se muestra la proporción de cada una de las categorías
de renglón por columna. Así, de la clase de Geología, 3.5% está en columna A,
22.4% en columna B, etc. La masa de la fila de Geología, 0.107, es la
proporción de todas las materias de Geología en el conjunto de datos.
Row Profiles
A B C D E Mass
Geology 0.035 0.224 0.459 0.165 0.118 0.107
Biochemistry 0.034 0.069 0.448 0.034 0.414 0.036
Chemistry 0.046 0.192 0.377 0.162 0.223 0.163
Zoology 0.025 0.125 0.342 0.292 0.217 0.151
Physics 0.088 0.193 0.412 0.079 0.228 0.143
Engineering 0.034 0.125 0.284 0.170 0.386 0.111
Microbiology 0.027 0.162 0.378 0.135 0.297 0.046
Botany 0.000 0.140 0.395 0.198 0.267 0.108
Statistics 0.069 0.172 0.379 0.138 0.241 0.036
Mathematics 0.026 0.141 0.474 0.103 0.256 0.098
Mass 0.039 0.161 0.389 0.162 0.249
Análisis de la tabla de contingencia: se muestra la descomposición de la
inercia total. Se muestra el resumen de la descomposición de una tabla de
contingencia de 10 x 5 en 4 componentes. La columna denominada inercia
contiene el valor Chi cuadrada / n para cada componente. De la inercia total,
65.972 / 796 = 0.0829, 47.2% está contenida en el primer componente, 36.66%
por el segundo componente, etc. Aquí, 65.972 es el estadístico Chi cuadrada
Dagoberto Salgado Horta Página 179
que se debería obtener si se realizara la prueba Chi cuadrada de asociación
con esta tabla de contingencia.
Analysis of Contingency Table
Axis Inertia Proportion Cumulative Histogram
1 0.0391 0.4720 0.4720 ******************************
2 0.0304 0.3666 0.8385 ***********************
3 0.0109 0.1311 0.9697 ********
4 0.0025 0.0303 1.0000 *
Total 0.0829
Contribuciones de renglón: como no se especificó el número de
componentes, se calculan dos.
La columna Quality, es la proporción de la inercia de renglón
representada por los dos componentes. Los renglones Zoology y
Geology, con Quality de 0.928 y 0.916, respectivamente, están mejor
representados entre los renglones por los dos componentes, mientras
que Math tiene la representación más débil con 0.319.
La columna Mass tiene el mimo significado que en la tabla de perfiles de
Renglón – la proporción de la clase en el conjunto completo de datos.
La columna denominada Inert, es la proporción en la que contribuye
cada renglón en la inercia total. Así, Geology contribuye con 13.7% del
estadístico Chi cuadrado total.
Row Contributions
Component 1
ID Name Qual Mass Inert Coord Corr Contr
1 Geology 0.916 0.107 0.137 -0.076 0.055 0.016
2 Biochemistry 0.881 0.036 0.119 -0.180 0.119 0.030
3 Chemistry 0.644 0.163 0.021 -0.038 0.134 0.006
4 Zoology 0.929 0.151 0.230 0.327 0.846 0.413
5 Physics 0.886 0.143 0.196 -0.316 0.880 0.365
6 Engineering 0.870 0.111 0.152 0.117 0.121 0.039
7 Microbiology 0.680 0.046 0.010 -0.013 0.009 0.000
8 Botany 0.654 0.108 0.067 0.179 0.625 0.088
9 Statistics 0.561 0.036 0.012 -0.125 0.554 0.014
10 Mathematics 0.319 0.098 0.056 -0.107 0.240 0.029
Component 2
ID Name Coord Corr Contr
1 Geology -0.303 0.861 0.322
2 Biochemistry 0.455 0.762 0.248
3 Chemistry -0.073 0.510 0.029
Dagoberto Salgado Horta Página 180
4 Zoology -0.102 0.083 0.052
5 Physics -0.027 0.006 0.003
6 Engineering 0.292 0.749 0.310
7 Microbiology 0.110 0.671 0.018
8 Botany 0.039 0.029 0.005
9 Statistics -0.014 0.007 0.000
10 Mathematics 0.061 0.079 0.012
Renglones suplementarios: esta tabla se puede interpretar de manera similar
a la tabla de contribuciones por renglón.
Supplementary Rows
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 Museums 0.556 0.067 0.353 0.314 0.225 0.168 -0.381 0.331 0.318
2 MathSci 0.559 0.134 0.041 -0.112 0.493 0.043 0.041 0.066 0.007
Contribuciones de columna: aquí se muestra que dos componentes explican
la mayoría de la variabilidad en las categorías de fondeo B, D, y E. Las
categorías de fondeo A, B, C y D contribuyen más al componente 1, mientras
que la categoría sin fondos E, contribuye más al componente 2.
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 A 0.587 0.039 0.187 -0.478 0.574 0.228 -0.072 0.013 0.007
2 B 0.816 0.161 0.110 -0.127 0.286 0.067 -0.173 0.531 0.159
3 C 0.465 0.389 0.094 -0.083 0.341 0.068 -0.050 0.124 0.032
4 D 0.968 0.162 0.347 0.390 0.859 0.632 -0.139 0.109 0.103
5 E 0.990 0.249 0.262 0.032 0.012 0.006 0.292 0.978 0.699
Gráfica de Renglones: muestra las coordenadas principales de renglón. El
componente 1, que mejor explica Zoología y Física, muestra dos clases
removidas desde el origen, pero con signo contrario. El componente 1 podrá
ser pensado como contraste de las ciencias biológicas y Botánica con la Física.
El componente 2 podría pensarse como contraste de Bioquímica e Ingeniería
con Geología.
Dagoberto Salgado Horta Página 181
Component 1
Co
mp
on
en
t 2
0.50.40.30.20.10.0-0.1-0.2-0.3-0.4
0.5
0.4
0.3
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
MathSci
Museums
Mathematics
Statistics
Botany
Microbiology
Engineering
Physics
ZoologyChemistry
Biochemistry
Geology
Row Plot
Gráfica asimétrica de renglones: los renglones son escalados en
coordenadas principales y las columnas son escaladas en coordenadas
estándar. Entre las clases de fondeo, el Componente 1 contrasta los niveles de
fondeo, mientras que el componente 2 contrasta de los que se fondean (A a D)
contra los que no se fondean €. Entre las disciplina, la física tiende a tener el
mayor nivel de fondeo y la Zoología tiene el fondeo más bajo. La Bioquímica
tiende a tener el punto medio del nivel de fondeo, pero es el más alto entre los
investigadores sin fondeo. Los museos tienden a estar fondeados, pero en un
menor nivel que los investigadores académicos.
Component 1
Co
mp
on
en
t 2
210-1-2-3
2
1
0
-1
-2
-3
E
D
C
B
A
MathSci
Museums
MathematicsStatistics
BotanyMicrobiologyEngineering
Physics
ZoologyChemistry
Biochemistry
Geology
Asymmetric Row Plot
Dagoberto Salgado Horta Página 182
B. Análisis de correspondencia múltiple
El análisis de correspondencia múltiple extiende al análisis de correspondencia
simple al caso de tres o más variables categóricas. El análisis de
correspondencia múltiple realiza un análisis de correspondencia simple en una
matriz de variables indicadoras donde cada columna de la matriz corresponde
a un nivel de variable categórica. En vez de tener una tabla de dos vías, la
tabla multi vía se resume a una dimensión. Al moverse del procedimiento
simple al múltiple. Se gana información en un número potencial mayor de
variables, pero se puede perder información en como los renglones y las
columnas se relacionan unas con otras.
El análisis de correspondencia múltiple descompone una matriz de variables
indicadoras formadas de todas las variables consideradas. No se parece al de
correspondencia simple, donde las columnas y renglones son de una variable,
aquí todas las clases de variables son contribuyentes de columnas.
El análisis de correspondencia múltiple realiza un análisis de componentes
principales ponderado de la matriz de variables indicadoras. Si el número de
categorías en las j columnas categóricas son c1, c2, …, cj, el número de
dimensiones relevantes es la suma de (ci-1), con i = 1, 2, …., j. Como en el
análisis de correspondencia simple, el análisis de correspondencia múltiple
particiona el estadístico Chi cuadrada de Pearson. A diferencia del análisis de
correspondencia simple, no se pueden analizar ya sean los perfiles de renglón
o de columna – hay solo perfiles de columnas --. Dado que no hay renglones,
este análisis ofrece solo una gráfica – una gráfica de coordenadas de
columnas.
Ejemplo:
Los accidentes de automóvil se clasifican de acuerdo al tipo de accidente en:
colisión o volcadura; severidad del accidente (no severo y severo); si o no el
chofer fue expulsado; y el tamaño del coche (pequeño o estándar). Se utiliza el
Dagoberto Salgado Horta Página 183
análisis de correspondencia múltiple para examinar como las categorías en
esta tabla de cuatro vías se relacionan unas con otras.
1 Open worksheet EXH_TABL.MTW.
2 Stat > Multivariate > Multiple Correspondence Analysis.
3 Seleccionar Categorical variables, e indicar CarWt DrEject AccType AccSever.
4 En Category names, seleccionar AccNames.
5 Click Graphs. seleccionar Display column plot.
7 Click OK en cada uno de los cuadros de diálogo.
Los resultados se muestran a continuación:
Multiple Correspondence Analysis: CarWt, DrEject, AccType, AccSever
Análisis de la matriz indicadora: esta tabla da un resumen de la
descomposición de las variables. La columna denominada Inercia es el valor de
la Chi cuadrada / n contenida por cada componente. De la inercia total de 1,
40.3%, 25.2%, 19.0% y, 15.5% son contenidas en los componentes primero al
cuarto respectivamente.
Analysis of Indicator Matrix
Axis Inertia Proportion Cumulative Histogram
1 0.4032 0.4032 0.4032 ******************************
2 0.2520 0.2520 0.6552 ******************
3 0.1899 0.1899 0.8451 **************
4 0.1549 0.1549 1.0000 ***********
Total 1.0000
Contribuciones de columna: como no se especificó el número de
componentes, se calculan dos.
La columna Quality, es la proporción de la inercia de columna
representada por los dos componentes. Las categorías tamaño de coche
(pequeño, estándar) con Qual = 0.965, mientras que las categorías de
expulsión son al menos representadas por Qual = 0.474. Cuando hay
solo dos categorías para cada clase, cada una es representada de
Dagoberto Salgado Horta Página 184
manera similar por cualquier componente, pero esto puede no ser cierto
para más de dos categorías.
La columna Mass tiene el mismo significado que en la tabla de perfiles
de Renglón – la proporción de la clase en el conjunto completo de datos.
En este ejemplo CarWt, DrEject, AccType, y AccServer se combinan
para una proporción de 0.25.
La columna denominada Inert, es la proporción en la que contribuye
cada columna en la inercia total. Las categorías coches pequeños,
expulsados, y volcaduras tienen la mayor inercia, sumando 61.4%, que
indica que estas categorías están más disociadas de las demás.
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 Small 0.965 0.042 0.208 0.381 0.030 0.015 -2.139 0.936 0.771
2 Standard 0.965 0.208 0.042 -0.078 0.030 0.003 0.437 0.936 0.158
3 NoEject 0.474 0.213 0.037 -0.284 0.472 0.043 -0.020 0.002 0.000
4 Eject 0.474 0.037 0.213 1.659 0.472 0.250 0.115 0.002 0.002
5 Collis 0.613 0.193 0.057 -0.426 0.610 0.087 0.034 0.004 0.001
6 Rollover 0.613 0.057 0.193 1.429 0.610 0.291 -0.113 0.004 0.003
7 NoSevere 0.568 0.135 0.115 -0.652 0.502 0.143 -0.237 0.066 0.030
8 Severe 0.568 0.115 0.135 0.769 0.502 0.168 0.280 0.066 0.036
La información para los compoinentes es como sigue:
La columna denominada Coord da las coordenadas de la columna. Ejec.
Y Rollover tienen las coordenadas mayores para el componente 1 y
Small tiene la coordenada más grande en valor absoluto para el
componente 2. El signo y su tamaño relativo son útiles para interpretar
los componentes.
La columna Corr representa la contribución del componente respectivo a
la inercia del renglón. Aquí, el Componente 1 contiene de 47 a 61% de la
inercia de las categorías de expulsión, tipo de colisión, y severidad del
accidente, pero explica solo el 30% de la inercia del tamaño de coche.
Contr, la contribución del renglón a la inercia del eje, muestra Ejec. Y
Rollover contribuyendo a la mayoría del, con componente 1 (Contr =
0.250 y 0.291, respectivamente). El componente 2, por otra parte
Dagoberto Salgado Horta Página 185
contiene el 93.6% de la inercia de la categoría del tamaño del coche con
Small contribuyendo con el 77.1% de la inercia del eje.
Gráfica de columna: Como la contribución para el Componente 1 indica, Ejec.
Y Rollover están más distantes del origen. Este componente constrasta Ejec. Y
Rollover y de alguna manera Severe y NoSevere. El Componente 2 separa
Small de las otras categorías. Sin embargo dos componentes pueden no ser
adecuados para explicar la variabilidad de esos datos.
Component 1
Co
mp
on
en
t 2
210-1-2
2
1
0
-1
-2
Severe
NoSevereRollover
Collis
EjectNoEject
Standard
Small
Column Plot
Dagoberto Salgado Horta Página 186
12. ESCALADO MULTIDIMENSIONAL
Dagoberto Salgado Horta Página 187
12. Escalado Multidimensional El escalado multidimensional intenta encontrar la estructura de un conjunto de
medidas de distancias entre objetos o casos. Esto se logra al asignar
observaciones a localidades específicas en un espacio conceptual (de dos o
tres dimensiones) de tal manera que las distancias entre puntos en el espacio
se ajusten a las diferencias tan cerca como sea posible. En muchos casos, las
dimensiones de este espacio conceptual puede ser interpretado y usado
posteriormente para interpretar los datos. Si se han medido las variables
objetivamente, se puede utilizar el escalado multidimensional como una técnica
de reducción de datos. Se puede aplicar también a calificaciones subjetivas de
diferencias entre objetos o conceptos. Adicionalmente, el procedimiento puede
manejar datos no similares de fuentes múltiples, como diferentes
encuestadores o encuestados.
Por ejemplo, ¿Cómo percibe la gente las relaciones entre diferentes coches? Si
se tienen datos de encuestas indicando calificaciones de similaridad entre
diferentes fabricantes y modelos de coches, el escalado multidimensional
puede ser utilizado para identificar dimensiones que describan las
percepciones de los clientes.
Se podría encontrar por ejemplo, que el precio y tamaño de un vehículo define
un espacio de dos dimensiones, que contiene las similaridades reportadas por
los encuestados.
Construyendo un mapa de la matriz de distancias El escalado multidimensional es una técnica que está diseñada para construir un ―mapa‖ mostrando las relaciones entre un número de objetos, dada sólo una tabla de distancias entre ellos. El ―mapa‖ puede estar en una dimensión (si caen en una línea), en dos dimensiones (si los objetos se encuentran en un plano), en tres dimensiones ( si los objetos pueden ser representados por puntos en el espacio), o en un número mayor de dimensiones. Por ejemplo, las distancias entre cuatro objetos A, B, C y D se tiene:
Dagoberto Salgado Horta Página 188
A B C D
A 0 6 6 2.5
B 6 0 9.5 7.8
C 6 9.5 0 3.5
D 2.5 7.8 3.5 0
B A D C
La distancia al mismo objeto es cero. El objeto puede ser reconstruido con
base en las distancias de la matriz.
Procedimiento para escalado multidimensional
El escalado multidimensional clásico inicia con una matriz de distancias entre n
objetos que tienen ij , la distancia del objeto i al objeto j, en el renglón i-ésimo
y la columna j-ésima. El número de dimensiones t, para el mapeo de objetos es
fijo para una solución en particular. Los pasos que se siguen en los programas
computacionales son los siguientes:
1. Una configuración inicial es preparada para los n objetos en t dimensiones,
i.e., se asumen las coordenadas (x1, x2, …, xt) para cada objeto en un espacio
dimensional t.
2. Se calculan las distancias euclidianas entre los individuos para la
configuración. Sea dij la distancia entre individuos i y j.
3. Se hace una regresión de dij sobre ij, la última es la distancia entre
individuos i y j con base en los datos de entrada.
La regresión puede ser lineal, polinómica o monotónica. Por ejemplo una
regresión lineal asume que:
Dagoberto Salgado Horta Página 189
ijij
bad
La regresión monotónica asume que si varia delta puede incrementar de la dij o
mantenerse constante, sin establecerse una relación entre las variables.
Las distancias obtenidas ijij
bad ˆ de la regresión se denominan
―disparidades‖, que son las distancias ij escaladas para ajustar a la
configuración de dij tan cerca como sea posible:
4. La bondad de ajuste entre las distancias de la configuración y las
disparidades se mide con un estadístico adecuado, que puede ser el STRESS,
que es:
2/122 ˆ/)ˆ(1
ijijijdddSTRESS
El término STRESS indica la amplitud a la cual la configuración espacial de
puntos tiene que ser estresada para obtener los datos de distancias ij .
5. Las coordenadas (x1, x2, …, xt) de cada objeto se cambia ligeramente para
reducir el estrés.
Los pasos 2 a 5 se repiten hasta que parece que el estrés no se puede reducir
más. Como resultados del análisis se tienen las coordenadas de los n
individuos en las t dimensiones. Estas coordenadas pueden utilizarse para
dibujar un mapa que muestre como se relacionan los individuos. Es deseable
encontrar una buena solución en tres o menos dimensiones, para poder hacer
una representación gráfica adecuada.
Ejemplo:
Con base en un ―mapa‖ de carreteras de una isla de Nueva Zelanda de 13
ciudades. Como las distancias no son proporcionales a las distancias
geográficas no es posible recuperar exactamente el mapa de las carreteras.
Los datos son los siguientes:
Dagoberto Salgado Horta Página 190
Escalado multidimensional
Alejandra Balclutha Blenheim Christchurch Dunedin Franza Josef Greymouth Invercargill Milford Nelson Queenstown
Te anau Timaru
Alejandra 0 100 485 284 126 233 347 138 248 563 56 173 197
Balclutha 100 0 478 276 50 493 402 89 213 537 156 138 177
Blenheim 485 478 0 201 427 327 214 567 691 73 494 615 300
Christchurch 284 276 201 0 226 247 158 365 489 267 305 414 99
Dunedin 126 50 427 226 0 354 352 139 263 493 192 188 127
Franza_Josef 233 493 327 247 354 0 114 380 416 300 228 366 313
Greymouth 347 402 214 158 352 114 0 493 555 187 341 480 225
Invercargill 138 89 567 365 139 380 493 0 174 632 118 99 266
Milford 248 213 691 489 263 416 555 174 0 756 178 75 377
Nelson 563 537 73 267 493 300 187 632 756 0 572 681 366
Queenstown 56 156 494 305 192 228 341 118 178 572 0 117 230
Te_anau 173 138 615 414 188 366 480 99 75 681 117 0 315
Timaru 197 177 300 99 127 313 225 266 377 366 230 315 0
Corrida con SPSS 1. Analyze > Scale > Multidimensional scaling 2. Pasar todas las variables (dimensions min 2 max 2) 3. Options: Group plots; Individual subject plots; Data Matriz; Model summary 4. OK Los resultados son los siguientes:
Alscal Alscal Procedure Options
Data Options-
Number of Rows (Observations/Matrix). 13
Number of Columns (Variables) . . . 13
Number of Matrices . . . . . . 1
Measurement Level . . . . . . . Ordinal
Data Matrix Shape . . . . . . . Symmetric
Type . . . . . . . . . . . Dissimilarity
Approach to Ties . . . . . . . Leave Tied
Conditionality . . . . . . . . Matrix
Data Cutoff at . . . . . . . . .000000
Model Options-
Model . . . . . . . . . . . Euclid
Maximum Dimensionality . . . . . 2
Minimum Dimensionality . . . . . 2
Negative Weights . . . . . . . Not Permitted
Output Options-
Job Option Header . . . . . . . Printed
Data Matrices . . . . . . . . Printed
Dagoberto Salgado Horta Página 191
Configurations and Transformations . Plotted
Output Dataset . . . . . . . . Not Created
Initial Stimulus Coordinates . . . Computed
Algorithmic Options-
Maximum Iterations . . . . . . 30
Convergence Criterion . . . . . .00100
Minimum S-stress . . . . . . . .00500
Missing Data Estimated by . . . . Ulbounds
Tiestore . . . . . . . . . . 78
Raw (unscaled) Data for Subject 1
1 2 3 4 5
1 .000
2 100.000 .000
3 485.000 478.000 .000
4 284.000 276.000 201.000 .000
5 126.000 50.000 427.000 226.000 .000
6 233.000 493.000 327.000 247.000 354.000
7 347.000 402.000 214.000 158.000 352.000
8 138.000 89.000 567.000 365.000 139.000
9 248.000 213.000 691.000 489.000 263.000
10 563.000 537.000 73.000 267.000 493.000
11 56.000 156.000 494.000 305.000 192.000
12 173.000 138.000 615.000 414.000 188.000
13 197.000 177.000 300.000 99.000 127.000
6 7 8 9 10
6 .000
7 114.000 .000
8 380.000 493.000 .000
9 416.000 555.000 174.000 .000
10 300.000 187.000 632.000 756.000 .000
11 228.000 341.000 118.000 178.000 572.000
12 366.000 480.000 99.000 75.000 681.000
13 313.000 225.000 266.000 377.000 366.000
11 12 13
11 .000
12 117.000 .000
13 230.000 315.000 .000
Iteration history for the 2 dimensional solution (in squared
distances)
Young's S-stress formula 1 is used.
Iteration S-stress Improvement
1 .08605
2 .06010 .02596
3 .05795 .00214
4 .05730 .00066
Iterations stopped because
S-stress improvement is less than .001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data
(disparities)
in the partition (row, matrix, or entire data) which
Dagoberto Salgado Horta Página 192
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
For matrix
Stress = .05316 RSQ = .98624
Configuration derived in 2 dimensions
Stimulus Coordinates
Dimension
Stimulus Stimulus 1 2
Number Name
1 ALEJANDR .7202 -.3136
2 BALCLUTH .8481 .7719
3 BLENHEIM -1.9897 .4399
4 CHRISTCH -.9345 .3452
5 DUNEDIN .5307 .5790
6 FRANZA -.6973 -1.2456
7 GREYMO -1.3326 -.5697
8 INVERCAR 1.2799 .3898
9 MILFORD 1.8132 -.3440
10 NELSON -2.3233 .0714
11 QUEENST .8088 -.4895
12 TE_ANAU 1.4641 -.2811
13 TIMARU -.1875 .6461
Optimally scaled data (disparities) for subject 1
1 2 3 4 5
1 .000
2 .901 .000
3 2.793 2.793 .000
4 1.807 1.807 1.197 .000
5 .901 .297 2.597 1.533 .000
6 1.533 2.793 2.112 1.533 2.199
7 2.112 2.535 1.347 .996 2.189
8 .982 .577 3.226 2.215 .982
9 1.533 1.347 3.883 2.793 1.533
10 3.157 3.157 .432 1.533 2.793
11 .297 .996 2.949 1.941 1.190
12 .996 .982 3.528 2.535 1.190
13 1.197 1.029 1.941 .753 .901
6 7 8 9 10
6 .000
7 .901 .000
8 2.535 2.793 .000
9 2.597 3.157 .996 .000
10 1.941 1.180 3.617 4.157 .000
11 1.533 2.112 .901 1.029 3.226
12 2.271 2.793 .753 .432 3.804
13 1.941 1.533 1.533 2.271 2.271
11 12 13
11 .000
12 .901 .000
13 1.533 1.941 .000
Dagoberto Salgado Horta Página 193
Derived Stimulus Configuration
Euclidean distance model
Dimension 1
210-1-2-3
Dim
en
sio
n 2
1.0
.5
0.0
-.5
-1.0
-1.5
timaru
te_anau
queenst
nelson
milf ord
inv ercar
grey mo
f ranza
dunedin
christchblenheim
balcluth
alejandr
Scatterplot of Linear Fit
Euclidean distance model
Disparities
543210
Dis
tan
ce
s
5
4
3
2
1
0
Scatterplot of Nonlinear Fit
Euclidean distance model
Observations
8007006005004003002001000
Dis
tan
ce
s
5
4
3
2
1
0
Dagoberto Salgado Horta Página 194
Transformation Scatterplot
Euclidean distance model
Observations
8007006005004003002001000
Dis
pa
riti
es
5
4
3
2
1
0
Ahora con Minitab: 1. Graph > Scatterplot > Simple
2. Y Variables Z2; X Variables Z1
3. Labels > Data labels > Use labels from column Ciudad
4. OK
Z1
Z2
210-1-2
1.0
0.5
0.0
-0.5
-1.0
-1.5
Timaru
Te anau
Queenstown
Nelson
Milford
Invercargill
Greymouth
Franza Josef
Dunedin
ChristchurchBlenheim
Balclutha
Alejandra
Scatterplot of Z2 vs Z1
Dagoberto Salgado Horta Página 195
Ejemplo HATCO:
Paso 1: Objetivos del mapeo perceptual
El propósito del estudio es explorar la imagen y competitividad de Hatco,
atendiendo las percepciones del mercado sobre Hatco y nueve competidores,
así como investigar preferencias, entre clientes potenciales.
Paso 2. Diseño del estudio de mapeo perceptual
Se hacen entrevistas con 18 gerentes medios de diferentes empresas
representantes de la base de clientes potenciales existente en el mercado. Se
colectaron tres tipos de datos: juicios de similaridad; calficación de atributos de
las organizaciones; y preferencias de cada organización en diferentes
situaciones de compra.
Datos de similaridad
Los juicios de similaridad se realizaron con enfoque de comparación de objetos
pareados. Los 45 pares de organizaciones [(10 x 9)/2] se presentaron a los
encuestados, quienes indicaron que tan similares eran en una escala de nueve
puntos, con 1 ―no similar‖ y 9 ―muy similar‖, los valores deben ser
transformados ya que valores altos de similaridad indican mayor similitud, lo
opuesto a una distancia de similaridad.
Calificación de atributos
Se obtuvieron calificaciones para los ocho atributos de cada organización,
incluyendo: calidad, orientación de la dirección, calidad del servicio, rapidez de
entrega, nivel de precios, imagen de la fuerza de ventas, flexibilidad de precios,
e imagen de manufactura. En este caso, se pidió a cada encuestado
seleccionar la organización que mejor caracterizaba el atributo, podrían ser
varias organizaciones.
Evaluación de preferencias
Dagoberto Salgado Horta Página 196
Se evaluaron las preferencias de los encuestados ante tres diferentes
situaciones de compra: recompra repetitiva, recompra modificada, y nueva
situación de compra. La calificación fue de 1 para la organización más
preferida, 2 para la siguiente en importancia, etc.
Paso 3. Supuestos en el mapeo perceptual
Los supuestos del MSD (escalamiento múltiple) y CA (análisis de
correspondencia) tratan principalmente con la comparabilidad y
representatividad de los objetos evaluados y de los encuestados. Por lo que
deben ser seleccionados cuidadosamente.
Pasos 4 y 5. Escalado multidimensional
Se especifica un análisis composicional (MDS) y uno composicionla (CA) para
la construcción de los mapas preceptúales, se inicia con el MDS.
Paso 4: Obtener resultados del MDS y evaluar el ajuste del modelo
Los 45 juicios de similaridad de los 18 encuestados se procesaron como
matrices separadas, y una matriz de promedios de valores se calculó para
ilustrar el patrón de similaridades. Los datos se muestran a continuación:
Los datos son los siguientes:
EJEMPLO DE MDS Y CA
EMPRESA HATCO A B C D E F G H I
HATCO 0 6.61 6.61 2.33 2.56 4.06 2.5 2.33 2.44 6.17
A 6.61 0 6.61 2.61 2.56 2.39 3.5 2.39 4.94 6.94
B 6.61 6.61 0 3.44 4.11 2.17 4 3.72 6.61 2.83
C 2.33 2.61 3.44 0 6.94 4.06 2.22 2.67 2.5 2.5
D 2.56 2.56 4.11 6.94 0 2.39 2.17 2.61 7.06 2.5
E 4.06 2.39 2.17 4.06 2.39 0 4.06 3.67 5.61 3.5
F 2.5 3.5 4 2.22 2.17 4.06 0 2.28 2.83 6.94
G 2.33 2.39 3.72 2.67 2.61 3.67 2.28 0 2.56 2.44
H 2.44 4.94 6.61 2.5 7.06 5.61 2.83 2.56 0 2.39
I 6.17 6.94 2.83 2.5 2.5 3.5 6.94 2.44 2.39 0
Corrida con SPSS 1. Analyze > Scale > Multidimensional scaling 2. Pasar todas las variables
Dagoberto Salgado Horta Página 197
3 Seleccionar Data are distances; Shape Square Symmetric Continue 4. Model: Seleccionar Level of measurements Ordinal Dimensions Min 2 Max 2 4. Options: Group plots; Individual subject plots; Data Matrix; Model summary 4. OK Los resultados son los siguientes:
Alscal
Alscal Procedure Options
Data Options-
Number of Rows (Observations/Matrix). 10
Number of Columns (Variables) . . . 10
Number of Matrices . . . . . . 1
Measurement Level . . . . . . . Ordinal
Data Matrix Shape . . . . . . . Symmetric
Type . . . . . . . . . . . Dissimilarity
Approach to Ties . . . . . . . Leave Tied
Conditionality . . . . . . . . Matrix
Data Cutoff at . . . . . . . . .000000
Model Options-
Model . . . . . . . . . . . Euclid
Maximum Dimensionality . . . . . 2
Minimum Dimensionality . . . . . 2
Negative Weights . . . . . . . Not Permitted
Output Options-
Job Option Header . . . . . . . Printed
Data Matrices . . . . . . . . Printed
Configurations and Transformations . Plotted
Output Dataset . . . . . . . . Not Created
Initial Stimulus Coordinates . . . Computed
Algorithmic Options-
Maximum Iterations . . . . . . 30
Convergence Criterion . . . . . .00100
Dagoberto Salgado Horta Página 198
Minimum S-stress . . . . . . . .00500
Missing Data Estimated by . . . . Ulbounds
Tiestore . . . . . . . . . . 45
Raw (unscaled) Data for Subject 1
1 2 3 4 5
1 .000
2 6.610 .000
3 6.610 6.610 .000
4 2.330 2.610 3.440 .000
5 2.560 2.560 4.110 6.940 .000
6 4.060 2.390 2.170 4.060 2.390
7 2.500 3.500 4.000 2.220 2.170
8 2.330 2.390 3.720 2.670 2.610
9 2.440 4.940 6.610 2.500 7.060
10 6.170 6.940 2.830 2.500 2.500
6 7 8 9 10
6 .000
7 4.060 .000
8 3.670 2.280 .000
9 5.610 2.830 2.560 .000
10 3.500 6.940 2.440 2.390 .000
>Warning # 14654
>The total number of parameters being estimated (the number of
stimulus
>coordinates plus the number of weights, if any) is large relative to
the
>number of data values in your data matrix. The results may not be
reliable
>since there may not be enough data to precisely estimate the values
of the
>parameters. You should reduce the number of parameters (e.g.
request
>fewer dimensions) or increase the number of observations.
>Number of parameters is 20. Number of data values is 45
Iteration history for the 2 dimensional solution (in squared
distances)
Young's S-stress formula 1 is used.
Iteration S-stress Improvement
1 .34762
2 .31655 .03107
3 .30447 .01208
Dagoberto Salgado Horta Página 199
4 .29330 .01116
5 .28544 .00787
6 .27995 .00549
7 .27809 .00186
8 .27736 .00072
Iterations stopped because
S-stress improvement is less than .001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data
(disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
For matrix
Stress = .21711 RSQ = .65041
Configuration derived in 2 dimensions
Stimulus Coordinates
Dimension
Stimulus Stimulus 1 2
Number Name
1 HATCO 1.4421 .4676
2 A -.7839 1.3555
3 B -.9662 -1.5220
4 C .9408 -.5781
5 D -.7348 1.1899
6 E -1.6467 -.0867
7 F .8884 .9950
8 G .0380 .1487
9 H 1.3800 -.7134
10 I -.5578 -1.2565
Optimally scaled data (disparities) for subject 1
1 2 3 4 5
1 .000
2 2.793 .000
3 2.793 2.793 .000
4 1.445 1.621 1.796 .000
Dagoberto Salgado Horta Página 200
5 1.616 1.616 2.793 2.793 .000
6 2.793 1.572 1.445 2.793 1.572
7 1.572 1.796 2.793 1.445 1.445
8 1.445 1.572 1.949 1.621 1.621
9 1.572 2.793 2.793 1.572 2.845
10 2.793 2.793 1.621 1.572 1.572
6 7 8 9 10
6 .000
7 2.793 .000
8 1.796 1.445 .000
9 2.793 1.621 1.616 .000
10 1.796 2.793 1.572 1.572 .000
Derived Stimulus Configuration
Euclidean distance model
Dimension 1
1.51.0.50.0-.5-1.0-1.5-2.0
Dim
en
sio
n 2
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
-2.0
i
h
g
f
e
d
c
b
a
hatco
Scatterplot of Linear Fit
Euclidean distance model
Disparities
3.02.82.62.42.22.01.81.61.4
Dis
tan
ce
s
3.5
3.0
2.5
2.0
1.5
1.0
.5
0.0
Dagoberto Salgado Horta Página 201
Scatterplot of Nonlinear Fit
Euclidean distance model
Observations
8765432
Dis
tan
ce
s
3.5
3.0
2.5
2.0
1.5
1.0
.5
0.0
Transformation Scatterplot
Euclidean distance model
Observations
8765432
Dis
pa
riti
es
3.0
2.8
2.6
2.4
2.2
2.0
1.8
1.6
1.4