introducción al análisis de correspondencias-uso en análisis multidimensionales

31
INTRODUCCIÓN AL ANÁLISIS DE CORRESPONDENCIAS: USO EN ANÁLISIS MULTIDIMENSIONALES. Copyright Fco.J.Herrero y M.Cuesta (1998) Dpto. de Psicología Universidad de Oviedo (Report:DPAM#98.1) * R E S U M E N * El análisis de correspondencias (AC) es una técnica exploratoria, semejante a los componentes principales, que determina la representación multidimensional de la asociación entre las características expresadas en una tabla de contingencias. Esta técnica convierte las categorías de la tabla de frecuencias (filas y columnas) en un menor número de dimensiones, indicando que porcentaje del valor 2 de la asociación puede ser explicado por las nuevas dimensiones. En esta exposición nos introduciremos en el uso de una de las técnicas básicas de análisis descriptivo sobre matrices bidimensionales así como su mecanización en SPSS. Dedicándonos inicialmente a una introducción breve de la utilización del Análisis de Correspondencias (AC) en su formulación simple, para describir a continuación de forma paradigmática algunos de los mecanismos básicos de programación del paquete SPSS así como la interpretación de los resultados obtenidos al manipular esta clase de datos. Claves: Proceso de Datos, multivariado, reducción de datos, análisis de correspondencias, SPSS.

Upload: omarjms100

Post on 07-Dec-2015

9 views

Category:

Documents


0 download

DESCRIPTION

Introducción Al Análisis de Correspondencias-uso en Análisis Multidimensionales.

TRANSCRIPT

INTRODUCCIÓN AL ANÁLISIS DE CORRESPONDENCIAS: USO EN ANÁLISIS

MULTIDIMENSIONALES.

    Copyright Fco.J.Herrero y M.Cuesta (1998)     Dpto. de Psicología     Universidad de Oviedo (Report:DPAM#98.1)

* R E S U M E N *

    El análisis de correspondencias (AC) es una técnica exploratoria, semejante a los componentes principales, que determina la representación multidimensional de la asociación entre las características expresadas en una tabla de contingencias.

    Esta técnica convierte las categorías de la tabla de frecuencias (filas y columnas) en un menor número de dimensiones, indicando que porcentaje del valor 2 de la asociación puede ser explicado por las nuevas dimensiones.

    En esta exposición nos introduciremos en el uso de una de las técnicas básicas de análisis descriptivo sobre matrices bidimensionales así como su mecanización en SPSS. Dedicándonos inicialmente a una introducción breve de la utilización del Análisis de Correspondencias (AC) en su formulación simple, para describir a continuación de forma paradigmática algunos de los mecanismos básicos de programación del paquete SPSS así como la interpretación de los resultados obtenidos al manipular esta clase de datos. 

Claves: Proceso de Datos, multivariado, reducción de datos, análisis de correspondencias, SPSS.

 

1.- Introducción. 2.- Análisis de Correspondencias: Las matrices multidimensionales. 3.- Un ejemplo detallado del análisis de correspondencias.     3.1.- Un ejemplo en Psicometría.     3.2.- Un ejemplo en Psicología Social. 4. Conclusión. 5. Referencias.

1.- Introducción

El uso y reconocimiento de las metodologías cualitativas dentro la comunidad científica abren una nueva etapa, teniendo en cuenta que las respuestas que podamos obtener guardan una estrecha relación con la aplicación de los ordenadores al análisis de datos cualitativos (Batista y Martínez, 1989; Lebart, 1981; Richards y Richards, 1987) sobre todo en análisis complejos (Morineau, 1984), al facilitar el uso de procedimientos más intuitivos (Corroyer y Bert, 1990), además de constituir una nueva metodología dentro del campo de las Ciencias del Comportamiento (Cornejo, 1988).

La estadística aplicada, como herramienta básica de investigación, hace uso de tanto de los conocimientos matemáticos como de los conocimientos informáticos (Foucart, 1984). Estos dos aspectos serán contemplados dentro de este tipo de análisis de datos, centrandonos en principio en los aspectos que convierten al AC en una técnica estadística útil dentro de la Psicología a la hora de tratar la información de naturaleza abierta, o cuando los objetivos son meramente exploratorios.

El AC es útil en los trabajos exploratorios previos donde no existen hipótesis previas del comportamiento de la población, tanto en las vertientes correlacionales como experimentales (Cornejo, 1988). Permite extraer relaciones de dependencia a partir de variables categóricas expresadas en tablas de contingencia. Estando de esta forma relacionada con otros procedimientos estadísticos clásicos como son las formulaciones del 2, o el coeficiente de concordancia de Kendall. Por otra parte, permite analizar la estructura de esta asociación (Sánchez y Pérez, 1990), en forma de proximidades que nos ayudan a identificar las "causas" de la asociación medida, acentuando la representación gráfica como método óptimo de obtención de conclusiones (Lebart el al., 1982). Es decir, como una herramienta básica de información de tipo cualitativo.

Los orígenes del análisis de correspondencias se remontan a la década de los 60 (Benzécri, 1982). Se desarrolla como técnica estadística aplicada de naturaleza euclidiana (Foucart, 1984 y 1985) a la hora de analizar las tablas de contingencia, cuyo objeto es obtener una representación geométrica de los datos que ayude a visualizar y localizar las relaciones establecidas en grandes matrices de datos. Este nuevo enfoque del análisis de las tablas de contingencias, fuera del marco de la estadística clásica (Batista, 1984), ha derivado posteriormente a formulaciones nuevas. De este modo es plausible utilizarlo en tablas lógicas completas o datos ordinales, y en general a cualquier estructura (sujetos x variables) que contenga valores enteros positivos (Cornejo, 1988; Foucart, 1985) y también a formas multivariantes, de forma tal que es tomado en la actualidad como un caso particular del análisis factorial. Concretamente, pude ser tomado como una técnica particular del análisis de componentes principales, iniciado en los trabajos de principios de siglo de Pearson y Hottelling, y desarrollado sobre todo a partir de la década de los 60 gracias al uso de la informática (Batista y Martínez, 1989). Mientras la escuela anglosajona enfoca las aplicaciones sobre las variables (estructuras) con el desarrollo del análisis factorial, la escuela francesa se desvía hacia aplicaciones centradas en los individuos (análisis de correspondencias).

2.- Análisis de Correspondencias: Las matrices multidimensionales.   La estructura más común de las matrices multidimensionales, Tablas de individuos x

variables cuantitativas, pude representarse de la siguiente forma:  

VARIABLESObservaciones

X1 X2 X3 ...

Xp

1  

2  

3  

.  

.  

.  

n

x11  

x21  

x31       

..

.  

  

xn1

x12  

x22  

x32  

  

..

.  

  

xn2

x13  

x23  

x33       

..

.  

  

xn3

..

.  

..

.  

..

.  

      

..

.  

  

...

x1p  

x2p  

x3p  

  

...  

  

xnp

Tabla 1: Tabla de individuos por variables.  

Compuestas por p variables y n individuos cada elemento o celda de la matriz suele denotarse por medio de la expresión xij, que representa la medida obtenida por el sujeto i en la variable j. Ejemplos de este tipo de matrices son las obtenidas cuando evaluamos el rendimiento de una muestra sobre un conjunto de pruebas psicométricas tradicionales (ej: Tests de Raven, Wisc, Bohen, etc.).  

Tablas de contingencia.

Matriz representativa de 2 caracteres o propiedades generales de tipo cualitativo, expresado en forma de modalidades exhaustivas y exclusivas entre sí. Por ejemplo, veamos la siguiente tabla:  

CARÁCTER 2CARÁCTER 1

X1 X2 X3 ... Xp

1  

k11  

k21  

k12  

k22  

k13  

k23  

...  

... 

k1p  

k2p  

 

3  

.  

.  

.  

n

k31       

...     

kn1

k32  

  

...     

kn2

k33  

  

...     

kn3

 

...         

...     

...

k3p  

  

...     

knp

Tabla 2: Tabla de contingencias  

El elemento kij representa el número de individuos (frecuencia absoluta) que cumplen tanto la condición de la modalidad i perteneciente al primer carácter como la condición de la modalidad j correspondiente al segundo carácter estudiado sobre una muestra puntual. Ejemplo de este tipo de matrices son todos aquellos estudios que relacionan variables como son el sexo, la clase social, tipo de estudios o el estado civil.   2.1.- Notación en la tabla de contingencia y construcción de la nube de puntos.

El análisis de correspondencias se efectua sobre la matriz de probabilidades que podemos determinar a partir de una matriz o tabla de contingencia, pudiendo ser introducido como un análisis de componentes principales o como análisis canónico (Foucart, 1984 y 1985). La matriz de datos de partida es una tabla de frecuencias:  

1 2 3 ... j ... p

3

k11 

k21 

k31

k12 

k22 

k32

k13 

k23 

k33

... 

... 

...

K1j 

K2j 

K3j

... 

... 

...

K1p 

K2p 

K3p

k1. 

k2. 

k3.

K(nxp) = . 

.

... ... ... ... ... ... ... ...

ki1       

ki2       

ki3       

... 

   

Kij       

... 

   

Kip       

ki.       

n

...   

kn1

...   

kn2

...   

kn3

 

... 

 

...

...   

Knj

 

... 

 

...

...   

Knp

...   

kn.

k.1 k.2 k.3 ... k.j ... k.p K

Tabla 3: Notación en la tabla de contingencias.  

Para aplicar el análisis de correspondencias no se emplea directamente la tabla de frecuencias sino que se transforma en una matriz de probabilidades, de acuerdo a la siguiente expresión:

A partir de la información anterior nos encontramos con la posibilidad de definir, sobre Rp, las características de cada punto fila en la nube de puntos, situación esta que viene dada por los siguientes elementos: perfil =(fij /fi.) j = 1,...,p (2)masa = fi. = ki./K (3)coordenadas = (fij /(fi.f.j

1/2)) j = 1,...,p (4)Observando que el perfil fila no es nada más que la frecuencia condicionada [f(j/i)], y por otra parte, que el perfil medio es equivalente al marginal de la tabla de frecuencias.   En Rn, cada punto columna j vendrá definido por los siguientes elementos:   masa = f.j = k.j/K (5)perfil =(fij /f.j) j = 1,...,n (6)coordenadas = (fij /(f.jfi.

1/2)) j = 1,...,n (7)  La masa de una fila (fi.) o columna (f.j) debe entenderse como la importancia relativa dentro de la tabla de datos. Sirven para atenuar la preponderancia que podría tener alguna fila o columna en el análisis. Por otra parte, el perfil fila o perfil columna identifica cada modalidad en cuanto a su importancia relativa.  

Por ejemplo, supongamos que la tabla de frecuencias es la siguiente:  

Fila/Columna

1 2 Marginal

1 20 11 31

2 21 8 29

3 60 33 93

Marginal 101 52 153

Tabla 4: Frecuencias absolutas.   operando la formulación anterior obtendríamos la siguiente tabla:  

Fila/Columna 1 2 Marginal1 0,645 0,355 1,0002 0,724 0,276 1,0003 0,645 0,355 1,000

Masa 0,660 0,340

Tabla 5: Perfil fila.

 En el ámbito aparente, si nos basamos en la información de la tabla de resultados brutos, la fila 1 y 2 tienen la misma semejanza. Sin embargo, atendiendo a la información de la matriz de perfil fila nos encontramos que la fila 1 y 3 son exactamente iguales (0,645 0,355).   La solución para los datos brutos anteriores, en cuanto a la dimensión columna, sería:

Fila/Columna 1 2 Masa1 0,198 0,211 0,2032 0,208 0,154 0,1903 0,594 0,635 0,607

Marginal 1,000 1,000

Tabla 6: Perfil Columna    2.2.- ELECCIÓN DE LAS DISTANCIAS.   En Rp, el cuadrado de la distancia entre dos puntos fila (i,i') cualesquiera viene dado por la expresión métrica (métrica de Mahalanobis(1)) conocida como la distancia 2. La justificación del uso de este tipo de distancia, y no la euclidiana básica, se basa en que esta última plantea el problema de menospreciar los pesos de las columnas lo cual da como resultado final, en algunas soluciones, conclusiones inaceptables.   Por ejemplo, supongamos el caso de una tabla de n filas y 2 columnas, donde las dos primeras filas están formadas por los siguientes elementos:  

  Sa  Sb  ...

C+  .32  .28  ...

C-  .03  .07  ...

Tabla 7: Distancias para dos sujetos hipotéticos.   donde verificando la distancia euclidiana:

obtenemos como resultados distancias equivalentes para las categorías-columna positivo [(0.32-0.28)2 =0.0016] y negativo [(0.03-0.07)2=0.0016], lo cual en el ámbito intuitivo (cualitativamente) es contradictorio, ya que las diferencias para los dos sujetos en estas dos categorías son evidentemente distintas (más del doble en la categoría "negativo" y una séptima parte en la categoría "positivo").

La inconsistencia anterior,  producida por los efectos marginales, se puede contrarrestar operando las distancias euclidianas en forma de cocientes:

pero el peso excesivo de las columnas con f.j cuando contiene valores elevados sigue distorsionando los resultados. La forma de controlar esta fuente de error es ponderando la expresión anterior, formulación conocida como distancia 2:

verificandose además, que ...

A este tipo de distancia se le denomina también "ponderada", por cumplir la propiedad de invarianza o equivalencia distribucional. Esto implica que si se unen dos puntos filas o dos puntos columna con idénticos perfiles, la distancia entre esos dos puntos queda invariante. Esto es, si dos puntos son semejantes se pueden agrupar sin alterar las distancias para el resto de los puntos en Rp y Rn, lo cual representa una ventaja al poder garantizar la arbitrariedad de la nomenclatura (Lebart et al., 1982).

Para Rn, la distancia de dos puntos columnas cualesquiera (j,j'), vendrá dado por la formula semejante a la vista anteriormente en el caso de las filas:

La originalidad de este tipo de análisis radica en la utilización de la distancia 2, que si bien no es equivalente al 2 de contingencia (formulación de Pearson) si están relacionadas entre sí en la medida en que éste es igual a la nube de inercia (NI), que podemos también obtener por medio de la distancia 2, multiplicada por la suma de la matriz de contingencia (K). Ya que la nube de inercia que podemos resolver por...

resultando entonces que...

2.3. - Contraste de independencia.

Usando la notación de la tabla, donde fij, fi. y fj. pueden ser tomados como estimaciones de probabilidad, se puede definir ahora la hipótesis de independencia entre filas y columnas de la tabla de contingencia por fij = fi.f.j, admitiendo que para tamaños grandes K la correspondencia sigue una distribución asintótica 2 con (n-1).(p-1) grados de libertad. Obteniendo el estadístico de contrate correspondiente al operar:

Asumiendo de esta forma que el contraste de independencia habitual equivale a la igualdad de todos los valores propios a cero, lo cual comprobamos con la obtención del estadístico anterior, que podemos simplificar de la forma siguiente:

2.4.- Proceso de datos: tipo de elementos.   El proceso de análisis de datos o método de estadística descriptiva multidimensional (Lebart et al., 1982), puede abordarse desde tres perspectivas, que no son contradictorias entre sí sino más bien complementarias en cuanto a los resultados obtenidos:

1. Análisis de correspondencias con la obtención de los ejes factoriales y el porcentaje de variación explicada. 2. Clasificación jerárquica ascendente sobre las soluciones factoriales obtenidas de forma tal que es posible obtener un número menor de clases. 3. Caracterización de los grupos obtenidos por sus variables demográficas.

Los elementos que ayudan a determinar los planos factoriales se denominan activos, debiendo cumplir el principio de conjunto homogéneo (similar al análisis factorial). Los elementos que forman parte del análisis "a posteriori", una vez determinados los ejes, se denominan elementos ilustrativos y no es necesario el cumplimiento de homogeneidad. Esta distinción es similar a la mantenida en los modelos lineales entre variables exógenas y endógenas, siendo equiparables desde un punto de vista geométrico, en la

medida que las variables activas (exógenas) crean un subespacio acotado donde proyectar las variables ilustrativas (endógenas).   De todo lo dicho anteriormente, es posible aplicar dos métodos complementarios de análisis: - métodos factoriales, basados en el álgebra lineal, donde las proximidades entre los puntos indican asociación estadística (ej: Análisis de correspondencias). - métodos de clasificación, basados en la agrupación de clases de puntos.  

*NOTA: 1. Las características de este tipo de métrica pueden ser contempladas de forma más detallada en Foucart (1984, página 42).

3.- Un ejemplo detallado del análisis de correspondencias.   Veamos el siguiente ejemplo proveniente del campo de la Etología: Deseamos verificar si la "conducta de evitación" se relaciona directamente con el nivel de predación a que son sometidos los alevines de la trucha común en situación experimental. Para ello asignamos aleatoriamente los animales en cuatro grupos experimentales (4 acuarios), de acuerdo a las siguientes condiciones:

- Nivel de predación 0, sin predador. - Nivel de predación 1, el investigador introduce un predador (tortuga de agua dulce) cada 9 días en el acuario durante 2 horas. -Nivel 2, el investigador introduce una vez cada 5 días el predador 2 horas. -Y nivel 3, el predador se introduce cada dos días 2 horas.

 Transcurridas cuatro semanas, se determina la conducta de evitación (ocultación de los individuos en la vegetación del acuario) ante la presencia del investigador en los cuatro acuarios durante media hora. Categorizando los resultados observados en cuatro niveles:

-No, no se observa la conducta de evitación en los animales. -Baja, menos del 25% del tiempo de observación los animales presentan la conducta. -Media, entre el 25% y el 50% del tiempo los animales manifiestan la conducta. -Alta, más del 50% del tiempo presentan la conducta de evitación.

  Los resultados obtenidos aparecen reflejados en la siguiente tabla de contingencia:

                                Tabla 8: Tabla de frecuencias.

A continuación definimos un procedimiento en SPSS que recoja los datos anteriores:

 DATA LIST FREE/fila col frecu. 

Begin data.  1 1 80 1 2  4 1 3  3 1 4  1  2 1 10 2 2 59 2 3  3 2 4  2  3 1  5 3 2  4 3 3 40 3 4  2  4 1  5 4 2  3 4 3  4 4 4 20  end data. 

Variable labels fila 'Conducta

evitación'/  Col 'Nivel de Predación'. 

Value labels fila 1 'No' 2 'Baja' 3

'Media' 4 'Alta'  / col 1 '0' 2 '1' 3 '2' 4 '3'. 

Weight by frecu.

Tabla 9: Procedimiento en SPSS para definir la tabla de frecuencias.   A continuación verificamos si existe relación entre las dos variables, para ello nos será suficiente determinar las siguientes instrucciones para tablas de contingencia:

 Crosstabs  /tables=fila by

col  /statistic=chisq.

Tabla 10: Procedimiento SPSS para analizar la tabla de frecuencias.   Obteniendo la siguiente tabla de resultados:

                                                        Tabla 11: Estadístico chi-2. Los datos de la tabla anterior nos indican que existe relación estadísticamente significativa entre las dos variables (p<.001), es decir, se verifica la relación entre las dimensiones estudiadas. Por tanto, nos encontramos en una situación aceptable de análisis de correspondencias.   De acuerdo con la formula 14, estamos en condiciones de establecer la nube de inercia (NI) del modelo, que podríamos interpretar como la cantidad de la información recogida en la tabla de contingencias. De este modo despejando la ecuación general anterior la NI será el resultado de operar /K, por lo tanto la NI para este caso será igual a 1,58429, resultado de operar 388,151/245.   3.1.- Métodos de normalización.   El método de normalización específica la forma de normalizar las puntuaciones fila y columnas, teniendo en cuenta que solo afecta a las puntuaciones y a las varianzas obtenidas. La contribución en las dimensiones y los perfiles se mantienen inalterables.   - Canónica: Para cada una de las dimensiones, las filas son el promedio ponderado de las columnas dividido por el autovalor correspondiente (valor propio), y las columnas son el promedio ponderado de las filas divido por el autovalor. Es el procedimiento más adecuado cuando se desea verificar sobre todo las diferencias o similitudes entre las dos variables. - Principal: Las distancias entre los puntos fila y columna son aproximaciones de las distancias chi-cuadrado. Método aconsejable cuando se desea verificar las diferencias o similitudes entre las categorías de una o ambas de las variables, más que las diferencias entre las propias variables. - Principal por fila: Maximiza las distancias entre los puntos fila con objeto de verificar las diferencias o similitudes entre las categorías de la variable fila. Para ello toma la distancia entre los puntos fila como aproximaciones de las distancias chi-cuadrado. - Principal por columna: Maximiza las distancias entre los puntos columna con objeto de verificar las diferencias o similitudes entre las categorías de la variable columna. Asume la distancia entre los puntos columna como aproximaciones de las distancias chi-cuadrado. - "Equilibrado": Distribuye la inercia tanto sobre las puntuaciones fila como sobre las puntuaciones columna. Es el método más útil para analizar las dimensiones representadas de forma conjunta.   Para el ejemplo estudiado, el método que mejor se ajusta es el canónico. De acuerdo con esto, el siguiente paso será definir las instrucciones en SPSS para el análisis de correspondencias:

 

Anacor  table=fila(1 4) by col(1 4)  /dimension=2  /normalization canonical  /print scores contributions

profiles  /plot joint ndim(all,max).

Tabla 12: Procedimiento Anacor en SPSS.   Después de lo cual ejecutaremos el procedimiento anterior, mediante el cual se obtienen los siguientes resultados:

 The Rowprofiles:                1        2        3       

4                   0        1       

2        3 Margin  1 No          ,909     ,045     ,034     ,

011 1,000  2 Baja        ,135     ,797     ,041     ,

027 1,000  3 Media       ,098     ,078     ,784     ,

039 1,000  4 Alta        ,156     ,094     ,125     ,

625 1,000            -------- -------- --------

--------    Margin      ,408     ,286     ,204     ,

102    The Columnprofiles:                1        2        3       

4                   0        1       

2        3 Margin  1 No          ,800     ,057     ,060     ,

040 ,359  2 Baja        ,100     ,843     ,060     ,

080 ,302  3 Media       ,050     ,057     ,800     ,

080 ,208  4 Alta        ,050     ,043     ,080     ,

800 ,131            -------- -------- --------

--------    Margin     1,000    1,000    1,000    1,000

Tabla 13:   En la tabla anterior se puede verificar como los patrones  de los perfiles filas son completamente distintos entre sí y como ocurre lo mismo con los patrones de los perfiles columna. Lo cual es un indicador claro que las modalidades estudiadas tanto en

el sentido de las filas y como de las columnas están bastante bien diferenciadas. Nótese como las celdas de la diagonal principal mantienen la carga mayor en las dos dimensiones analizadas, lo cual como veremos más adelante, es un indicador fuerte que las respectivas modalidades ij están fuertemente relacionadas entre sí. Dimension  Singular Inertia   Proportion

Cumulative              Value             Explained 

Proportion      1      ,76994    ,59280     ,374      

,374      2      ,74714    ,55822     ,352      

,727      3      ,65823    ,43327     ,273     

1,000                     --------- ----------

----------  Total              1,58429     1,000      1,000

Tabla 14:   En la solución anterior aparece expresado cada una de las dimensiones de las soluciones alcanzadas (no triviales), con la cantidad de la nube de inercia total explicada. De esta forma si ponemos en relación la inercia de cada dimensión con la inercia total obtendremos la proporción explicada de la información original (en forma bruta y acumulada).

De este modo, podemos decir que la información de la tabla de contingencia se explicaría por la primera dimensión el 37,4%, mientras en la segunda la explicación sería del 35,2%, y en la tercera del 27,3%. Como con las dos dimensiones primeras tendríamos explicada el 72,7% de la información inicial, se hace plausible reducir la dimensionalidad a dos únicos componentes.   También es posible aplicar el estadístico conocido como la descomposición aditiva de . El método consiste en obtener cada para cada una de las dimensiones, mediante la aplicación de la formula 16 y donde los grados de libertad se obtienen mediante la expresión general: (n+p-2.i-1) donde ... n : número de filas p: número de columnas i : número de la dimensión   De esta forma, aplicado a la tabla anterior los para las distintas dimensiones son:

245 . 0,59280 = 145,236 (gl:4+4-2-.1-1=5).245 . 0,55822 = 136,764 (gl:4+4-2.2-1=3).245 . 0,43327 = 106,151 (gl:4+4-2.3-1=1).

que son inicialmente todos significativos, es decir, aplicando esta solución nos quedariamos con los tres componentes.

  El autovalor (singular value) expresado en la tabla anterior(Tabla 14), se obtiene mediante la resolución de:

  donde ...

i (valor propio) referencia la cantidad de inercia explicada por la dimensión.  

Así, podemos comprobar como el autovalor de la primera dimensión (0,76994) es el resultado de operar:

    Por otra parte, los autovalores (singular value), se pueden interpretar como la relación existente entre las puntuaciones fila y columna. De esta forma, el valor 0,76994 (dimensión 1), es la correlación entre las puntuaciones fila y columna para la primera dimensión, 0,74714 la correlación de las puntuaciones anteriores para la segunda dimensión, y 0,65823 la correlación en la tercera dimensión.   Vamos a ver esto de una forma más detallada. Las puntuaciones fila y columna de nuestro ejemplo en las dos dimensiones alcanzadas son las siguientes:

 Row Scores:  FILA         Marginal    Dim                Profile       1      2     1 No         ,359    1,007  -,579     2 Baja       ,302    -,014  1,302     3 Media      ,208   -1,288  -,703     4 Alta       ,131    -,682  -,299 

Column Scores:  COL          Marginal    Dim                Profile       1      2     1 0          ,408     ,916  -,513     2 1          ,286    -,075  1,354     3 2          ,204   -1,332  -,726     4 3          ,102    -,792  -,287

Tabla 15: Puntuaciones fila y columna.  Si sustituimos las puntuaciones originales por los valores de las dimensiones de la solución anterior, y aplicamos la formula de la correlación de pearson obtendremos el resultado del autovalor.   Vamos a verificarlo con el segundo autovalor (0,747). Para ello basta con efectuar el siguiente procedimiento de recodificación en SPSS:

 recode fila (1=-0,579) (2=1,302) (3=-0,703) (4=-0,299) into rfila/ 

col (1=-0,513) (2=1,354) (3=-0,726) (4=-0,287) into rcol. 

correlation rfila rcol.Tabla 16: Recodificación en SPSS.   Una vez ejecutado obtendremos la siguiente matriz de resultados:

Tabla 17: Matriz de correlaciones.

que como podemos comprobar coincide con el autovalor de la segunda dimensión descrito anteriormente.   Como hemos visto anteriormente, dado que las modalidades o categorías, tienen pesos distintos, lo cual implica que pueden tener mayor o menor influencia entre las relaciones de las variables cualitativas estudiadas. Para medir la influencia que tiene cada una de las modalidades en la relación final, se utiliza el índice conocido como contribución.   Se distingue en primer lugar la contribución relativa de un factor a la inercia de los elementos, que no es nada mas que la cantidad relativa de inercia de un elemento (en forma de proporción) que es captada por cada una de las dimensiones alcanzadas. De esta forma en nuestro ejemplo la tabla de resultados es la siguiente:  

Contribution of dimensions to the inertia of each row point:  FILA         Marginal   Dim          Total                Profile      1      2     1 No          ,359   ,751   ,241   ,992     2 Baja        ,302   ,000   ,986   ,986     3 Media       ,208   ,616   ,178   ,793     4 Alta        ,131   ,120   ,022   ,142    Contribution of dimensions to the inertia of each column point:  COL          Marginal   Dim          Total                Profile      1      2     1 0           ,408   ,764   ,232   ,996     2 1           ,286   ,003   ,985   ,988     3 2           ,204   ,636   ,184   ,820     4 3           ,102   ,122   ,016   ,138

Tabla 18: Contribución de los factores.

  Observando la tabla anterior, podemos verificar por ejemplo, que los elemento fila 1 y 3 se explican mejor por la primera dimension, mientras el elemento 2 tiene mayor explicación en la segunda dimensión. Finalmente el elemento 4 no se encuentra bien representado en la solución alcanzada. Para los elementos columna, la estructura es semejante a lo visto en los puntos fila.   El segundo índice, se conoce como la contribución relativa de la puntuación a la dimensión. Dicho de otra forma, la parte de la varianza explicada (en forma de proporción) de cada elemento fila o columna a cada una de las dimensiones.

 Contribution of row points to the inertia of each dimension:  FILA          Marginal    Dim                 Profile        1        2     1 No           ,359     ,473     ,161     2 Baja         ,302     ,000     ,686     3 Media        ,208     ,448     ,138     4 Alta         ,131     ,079     ,016                         -------- --------                            1,000    1,000    Contribution of column points to the inertia of each dimension:  COL           Marginal    Dim                 Profile        1        2     1 0            ,408     ,445     ,144     2 1            ,286     ,002     ,701     3 2            ,204     ,470     ,144     4 3            ,102     ,083     ,011                         -------- --------                            1,000    1,000

Tabla 19: Contribución de las puntuaciones.  Por ejemplo, observando los datos de la tabla anterior, se puede determinar que la primera y tercera modalidad fila y columna contribuyen básicamente a la formación de la primera dimensión, mientras la segunda dimensión está determinada por la segunda modalidad tanto en las filas como en las columnas.   Por último, la representación gráfica dentro del análisis de correspondencias, ayuda a determinar intuitivamente entre que modalidades se produce la relación. Teniendo en cuenta que en los ejes cartesianos se representan los valores numéricos de las puntuaciones filas y columna sobre cada una de las nuevas dimensiones estimadas como significativas (ver tabla 15).   De acuerdo a esto, si tomasemos los datos de la tabla 15 y la representásemos gráficamente el resultado sería:

Gráfica 1: Representación bidimensional del análisis de correspondencias.  Inicialmente se puede determinar una clara asociación entre los niveles de predación y el tipo de conducta de evitación de los animales. Las diversas modalidades de las variables aparecen estrechamente emparejadas entre sí. Pudiendo verificarse de este modo como la conducta de evitación "media" se asocia al "nivel 2" de predación, mientras la conducta "alta" de evitación se relaciona con el "nivel 3", y de la misma forma la conducta "baja" se asocia con el "nivel 1", y la ausencia de la conducta con el "nivel 0".   Este tipo de situaciones de fuerte relación, produce frecuentemente soluciones a escala gráfica donde las categorías se distribuyen en torno a una parábola.  

Si se obtienen soluciones espaciales complicadas, como son tres dimensiones o más, el paquete SPSS resuelve perfectamente el problema. Como ejemplo puede servir la siguiente gráfica tridimensional de los datos estudiados:

3.1.- Un ejemplo en Psicometría.  

La tabla siguiente representa a seis sujetos y el porcentaje de aciertos en un test donde los items han sido diferenciados en su grado de dificultad (facil, medio y alto):  

ITEM

SUJETO IDF IDM IDA

S1 100 100 100

S2 100 100 90

S3 100 90 50

S4 90 70 40

S5 80 40 10

S6 70 30 5     

Aplicando el programa CORRESPONDENCE (SPSS 8.0) obtenemos la siguiente tabla resumen:

que puede asumirse como una solución con dos dimensiones de importancia desigual. Si bien es posible quedarnos el primeros de los ejes (explican el 97,2% de la inercia), es necesario el segundo para diferenciar claramente todos los tipos de ítems estudiados.

De esta forma, la representación gráfica de la solución alcanzada será:

... pudiendo observarse como la primera dimensión diferencia entre los items faciles (asociados a los sujetos 5 y 6) de los difíciles (asociados a los sujetos 1 y 2). Mientras la

segunda dimensión discrimina entre los items de dificultad media (asociados a los sujetos 3 y 4) frente al otro tipo de items.

3.2.- Un ejemplo en Psicología Social.  

Los datos siguientes representan la repartición de los diputados franceses (Legislativas 1981) de acuerdo al partido político y su profesión:

... dondeInd: Industriales y directores de sociedades.Com: Comerciantes y artesanos.Agr: Agricultores.Med: MedicosAbo: AbogadosOpl: Otras profesiones liberalesPsu: Profesores superiores.Pme: Profesores medias.Cas: Administrativos superiores.Ing: Ingenieros.Per: Periodistas.Pba: Maestros.Tec: Técnicos.Cad: Administrativos.Emp: Empleados.Obr: Obreros.Otr: Otras profesiones.Spr: Sin profesión.

Aplicando el programa CORRESPONDENCE (SPSS 8.0) obtenemos la siguiente tabla resumen:

que puede asumirse como una solución con tres dimensiones de importancia desigual. Si bien es posible quedarnos con los dos primeros ejes (explican el 90,8% de la inercia), es necesario el tercero para diferenciar claramente todos los partidos políticos estudiados.

Si representasemos la solución anterior en forma de gráfica tridimensional, obtendriamos como resultado:

Como se puede ver, la primera dimensión diferencia el partido comunista (PC) del resto de los partidos. La segunda dimensión discrimina entre el partido socialista (PS) y los partidos de la derecha. Por último, la tercera dimensión diferencia a los partidos UDF y RPR del resto de los partidos de la derecha.

4. Conclusión.   El análisis de correspondencias, básicamente es un doble análisis de componentes principales, uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida. Es una herramienta orientada como ayuda en la generación de teorías, facilitando la elección previa de las características o modalidades más significativas, frente a otros criterios de tipo teórico. Basandose la técnica más en las características de análisis generales e intuitivos frente a otro tipo de análisis más detallados.   Si bien los análisis deben ser guiados por un marco teórico previo (explícito), de hecho las metodologías cualitativas, debido a su flexibilidad, pueden hacer que los elementos subjetivos produzcan resultados sesgados. Precisamente el uso de ordenadores reduce este problema en la medida que los distintos aspectos son obtenidos mediante una operativización previa de los criterios utilizados, evitando un sobrevaloración humana de algunos elementos por parte del investigador y no apoyada en los datos.   El paquete SPSS se muestra así útil en la fase de reducción de datos, aun cuando presenta problemas que deberán ser solucionados en fases de desarrollo posterior del software o bien utilizando técnicas complementarias de programación "ad hoc", como

ocurre en la obtención de las dimensiones significativas a la hora de contrastar hipótesis.

   5. Referencias.

Batista,J.M. (1984). Componentes principales y análisis factorial. En J.J. Sánchez Carrión(ed.). Introducción a las Técnicas de Análisis Multivariable Aplicado a las Ciencias Sociales. Madrid: C.I.S.

Batista,J.M. y Martínez,M.R. (1989). Análisis Multivariado. Análisis en Componentes Principales. Barcelona: Hispano Europea.

Benzécri,J.P. (1982). Histoire et Préhistoire de l'Analyse des Données. Paris: Dunod.

Cornejo, J.M. (1988). Técnicas de Investigación Social: El Análisis de Correspondencias. Barcelona: PPU.

Corroyer,D. y Bert,M.-C. (1990). De l'ère des tables a l'ère informatique: Faire de l'inférence sans 2 sans T et sans F ?. L'Année Psychologique, 90, 381-401.

Foucart,T. (1984). Analyse Factorielle de Tableaux Multiples. Paris: Masson.

Foucart,T. (1985). Analyse Factorielle. Programmation Sur Micro-ordinateurs. Paris: Masson (2éme édition).

Lebart,L. (1981). Une procédure d'analyse lexicalle ecrite en langage FORTRAN. Les Cahiers de l'Analyse des Données, 6(2), 229-243.

Lebart,L.;Morineau;A. y Fénelon,J.-P. (1982). Traitement des Données Statistiques. París: Dunod. (Trad. castellana en Marcombo, 1985

Morineau,A. (1984). Computational and statistical methods for exploratory analysis of textual data. COMPSTAT, Verlag, Vienna.

Richards,L. y Richards,T. (1987). Qualitative data analysis: can computers do it?. Australian and New Zeland Journal of Sociology, 23(1), 23-35.

Sánchez,E.F. y Pérez,C. (1990). Diagnóstico sistémico de una familia: El Cuestionario de Interrelación Familiar (CIF) y la técnica de rejilla. Psicológica, 11, 59-82.