3. anÁlisis de correspondencias simpleslisis de correspondencias simples el análisis de...

21
3. ANÁLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado apropiado para la lectura y síntesis de la información contenida en una tabla de contingencia. Una tabla léxica agregada es una tabla de contingencia en donde las filas son las formas gráficas y las columnas los textos. Con las respuestas a preguntas abiertas se pueden definir textos artificiales utilizando las particiones de las respuestas originadas en preguntas cerradas. 3.1. Tabla de contingencia Los elementos del análisis de correspondencias se ilustran a continuación utilizando una tabla léxica agregada pequeña (tabla 3.1), construida a partir de las respuestas a la pregunta abierta: “En su opinión porque le ha ido bien con el café?”., de una encuesta a fincas cafeteras. Los textos se han conformado con la variable: tipología del productor, con las modalidades: 1. Empresarios tecnificados modernos. Em.Te.Mo. 2. Tecnificados modernos: Te.Mo. 3. Campesinos tecnificados modernos: Ca.Te.Mo. 4. Campesinos tradicionales: Ca.Tr.

Upload: dinhthuy

Post on 27-Nov-2018

225 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

3. ANÁLISIS DE CORRESPONDENCIAS SIMPLES

El análisis de correspondencias simples es un procedimiento estadístico multivariado

apropiado para la lectura y síntesis de la información contenida en una tabla de

contingencia. Una tabla léxica agregada es una tabla de contingencia en donde las filas son

las formas gráficas y las columnas los textos. Con las respuestas a preguntas abiertas se

pueden definir textos artificiales utili zando las particiones de las respuestas originadas en

preguntas cerradas.

3.1. Tabla de contingencia

Los elementos del análisis de correspondencias se ilustran a continuación utili zando una

tabla léxica agregada pequeña (tabla 3.1), construida a partir de las respuestas a la pregunta

abierta: “En su opinión porque le ha ido bien con el café?”., de una encuesta a fincas

cafeteras. Los textos se han conformado con la variable: tipología del productor , con las

modalidades:

1. Empresarios tecnificados modernos. Em.Te.Mo.

2. Tecnificados modernos: Te.Mo.

3. Campesinos tecnificados modernos: Ca.Te.Mo.

4. Campesinos tradicionales: Ca.Tr.

Page 2: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Alvaro Montenegro y Campo Elías Pardo

32

Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr. Marginal ADMINISTRACION 26 14 22 11 73 ADMINISTRADOR 17 6 5 4 32

AGRICULTOR 1 4 6 15 26 CULTIVO 5 8 14 6 33 LABORES 12 10 6 14 42 MANEJO 15 15 20 20 70

PERSONA 5 8 10 18 41 PROPIETARIO 4 14 10 6 34

Marginal 85 79 93 94 351

Tabla 3.1: Tabla de contingencia formas*textos

Las ocho palabras son utili zadas en 351 respuestas. Cada celda representa el número de

utili zaciones de la palabra de la fila por el grupo de cafeteros de la columna. Por ejemplo la

palabra agr icultor fue utili zada cuatro veces por el grupo de cafeteros tecnificados

modernos. La última columna es la marginal de las palabras, es decir el número de veces

que es utili zada cada palabra por todos los cafeteros encuestados. La última fila es la

marginal que representa el número de veces que cada grupo de cafeteros utili zaron las ocho

palabras.

3.2. Tablas de perfiles fila y columna

La lectura más interesante de la información contenida en una tabla de contingencia es la

comparación entre filas y entre columnas. En la tabla de frecuencias relativas las filas y las

columnas están influenciadas por el peso relativo de sus marginales. La comparación se

facilit a obteniendo las distribuciones condicionales o perfiles de cada una de las filas y de

cada una de las columnas. Para obtener la distribución condicional de una fila, se dividen

todas las celdas de esa fila por el valor total de la fila. De manera análoga se obtienen las

condicionales de las columnas. Se llega entonces a dos tablas: una de perfiles fila y otra de

perfiles columna.

La tabla de perfiles fila es la tabla 3.2, en donde se incluye la distribución marginal, es decir

la frecuencia relativa con que fueron utili zadas las ocho palabras en conjunto por los cuatro

Page 3: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Introducción al análisis de datos textuales 33

grupos de cafeteros. En la figura 3.1 aparece la misma información en forma de histograma

de barras.

Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr.

ADMINISTRACION 35.6 19.2 30.1 15.1 100 ADMINISTRADOR 53.1 18.8 15.6 12.5 100

AGRICULTOR 3.8 15.4 23.1 57.7 100 CULTIVO 15.2 24.2 42.4 18.2 100 LABORES 28.6 23.8 14.3 33.3 100 MANEJO 21.4 21.4 28.6 28.6 100

PERSONA 12.2 19.5 24.4 43.9 100 PROPIETARIO 11.8 41.2 29.4 17.6 100

Marginal 24.2 22.5 26.5 26.8 100

Tabla 3.2: Tabla de perfiles fila

PERFILES FILA

0% 20% 40% 60% 80% 100%

ADMINISTRACION

ADMINISTRADOR

AGRICULTOR

CULTIVO

LABORES

MANEJO

PERSONA

PROPIETARIO

Marginal

PA

LAB

RA

S

PORCENTAJE

Ca.Tr.

Ca.Te.Mo.

Te.Mo.

Em.Te.Mo.

Figura 3.1: Perfiles fila

Cada perfil fila representa la distribución de frecuencias con que cada palabra es utili zada

por los cuatro grupos de agricultores. Por ejemplo la palabra propietar io fue utili zada con

Page 4: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Alvaro Montenegro y Campo Elías Pardo

34

mayor frecuencia por los cafeteros técnificados modernos (41.2%) y con menor frecuencia

por los cafeteros empresar ios tecnificados modernos (4.7%). La distribución marginal es

la distribución de la frecuencia de uso de todas las ocho palabras entre los cuatro grupos de

agricultores. Se observa una frecuencia de uso muy similar.

Una primera lectura de esta información es la comparación con el perfil marginal. Se

observa, por ejemplo, que la palabra manejo tiene un perfil muy parecido al marginal. La

palabra agr icultor es mucho más usada por los cafeteros campesinos tradicionales

(57.7%), en comparación con el conjunto global de las palabras (26.8% por campesinos

tradicionales). Otra lectura es la comparación de los perfiles entre palabras. Se observa,

por ejemplo, que los perfiles de agr icultor y administrador son bien diferentes. El hecho

de que dos palabras tengan perfiles similares significa que son usadas con frecuencias

similares por los cuatro grupos de agricultores. Las palabras persona y agr icultor tienen

distribuciones algo parecidas, los campesinos tradicionales las utili zan con mayor

frecuencia (19.1% y 16%) y los empresar ios tecnificados modernos con menor

frecuencia (5.9% y 1.2%). En términos generales se están comparando las frecuencias de

utili zación de las palabras en los diferentes textos.

La tabla 3.3 es la tabla de perfiles columna y la figura 3.2 contiene los respectivos

histogramas, junto con el perfil marginal. Se tiene una distribución de frecuencias de las

ocho palabras para cada uno de los cuatro grupos de agricultores y la distribución marginal,

que es la distribución de frecuencias de utili zación de las ocho palabras por todos los

cafeteros encuestados. La distribución para el caficultor tecnificado moderno se observa

más parecida a la distribución marginal. Los perfiles de los cafeteros empresar io

tecnificado moderno y campesino tradicional parecen ser los más diferentes. En general

la comparación de perfiles columna en una tabla léxica agregada permite describir las

diferencias y semejanzas entre los textos respecto a las palabras utili zadas.

Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr. Marginal ADMINISTRACION 30.6 17.7 23.7 11.7 20.8

Page 5: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Introducción al análisis de datos textuales 35

ADMINISTRADOR 20.0 7.6 5.4 4.3 9.1 AGRICULTOR 1.2 5.1 6.5 16.0 7.4

CULTIVO 5.9 10.1 15.1 6.4 9.4 LABORES 14.1 12.7 6.5 14.9 12.0 MANEJO 17.6 19.0 21.5 21.3 19.9

PERSONA 5.9 10.1 10.8 19.1 11.7 PROPIETARIO 4.7 17.7 10.8 6.4 9.7

100.0 100.0 100.0 100.0 100.0

Tabla 3.3: Tabla de perfiles columna

PERFILES COLUMNA

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Em

.Te.

Mo.

Te.

Mo.

Ca.

Te.

Mo.

Ca.

Tr.

Mar

gina

l

TIPO DE CAFICULTOR

PO

RC

EN

TA

JE

PROPIETARIO

PERSONA

MANEJO

LABORES

CULTIVO

AGRICULTOR

ADMINISTRADOR

ADMINISTRACION

Figura 3.2: Perfiles columna

En el análisis de correspondencias simples (ACS) se busca una representación más

adecuada para analizar simultáneamente los perfiles fila y columna obtenidos a partir de

una tabla de contingencia. Cuando se tienen tablas de contingencia de gran tamaño es muy

difícil obtener una síntesis apropiada de forma como se hizo en el ejemplo. Para el ACS se

parte de la representación de los perfiles línea en un espacio multidimensional, donde las

columnas son los ejes y simétricamente de otra nube de perfiles columna, donde las líneas

son los ejes. Para ello se requiere del uso de una distancia apropiada: la distancia ji -

cuadrado entre distribuciones. Podemos hacer lecturas fáciles para representaciones

Page 6: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Alvaro Montenegro y Campo Elías Pardo

36

geométricas en dos dimensiones, pero es imposible leer más de tres dimensiones, entonces

es necesario hacer proyecciones sobre planos, buscando que se conserven lo mejor posible

el conjunto de las distancias originales. Este es el principio de funcionamiento de todos los

métodos factoriales. La lectura en proyección es desde luego aproximada pero se tendrá lo

más relevante de la información de la tabla de contingencia. Se requiere de índices para

complementar los gráficos y evitar lecturas erróneas, por ejemplo, un punto mal

representado en la proyección puede aparecer cercano a otro cuando en realidad no lo está.

3.3. Representación geométr ica de los perfiles

A partir de la tabla de contingencia se obtiene la tabla de frecuencias relativas dividiendo

cada celda por el total de la tabla. Esta tabla representa la distribución de frecuencias

conjunta de las palabras y los textos, en el caso de la tabla léxica agregada. Para el ejemplo

esta tabla es la 3.4, que se obtiene dividiendo cada celda de la tabla 3.1 por 351. El valor 7.4

de la celda (1,1) significa que el 7.4% de las formas gráficas corresponden a la palabra

administración y pertenecen al texto de los cafeteros empresar ios técnicos modernos. La

última fila (columna) es la distribución marginal.

Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr. Marginal

ADMINISTRACION 7.4 4.0 6.3 3.1 20.8 ADMINISTRADOR 4.8 1.7 1.4 1.1 9.1

AGRICULTOR 0.3 1.1 1.7 4.3 7.4 CULTIVO 1.4 2.3 4.0 1.7 9.4 LABORES 3.4 2.8 1.7 4.0 12.0 MANEJO 4.3 4.3 5.7 5.7 19.9

PERSONA 1.4 2.3 2.8 5.1 11.7 PROPIETARIO 1.1 4.0 2.8 1.7 9.7

Marginal 24.2 22.5 26.5 26.8 100.0

Tabla 3.4: Tabla de frecuencias relativas

Una notación generalizada de una tabla de frecuencias relativas es la siguiente:

Page 7: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Introducción al análisis de datos textuales 37

F

f f f

f

f f f

f

f

f

f f

f f f f f f

f f

j p

ij

n nj np

i

n

i ijj

p

j pi

n

ijj

p

i jj

p

i

n

j iji

n

=

→ =

→ = = =

=

=

= = ==

=

∑ ∑ ∑∑

11 1 1

1

1

1

11 1 11

1

1 1

� �

� � �

� � � �

� � �

� �

� �

.

.

.

.

. . . . . . . . .

. . . . . . . .

. . . . . . . . .

donde n es el número de filas y p el número de columnas; i y j son los índices para las filas

y las columnas, respectivamente; fi. y f.j son las marginales fila y columna,

respectivamente. Las tablas de perfiles también se pueden obtener de la tabla de frecuencias

de la misma forma que de la tabla de contingencia.

3.3.1 Nube de perfiles fila

En el espacio Rp se representan los n perfiles fila, dotados del peso pi = f i.

f

fj p i n con peso p f

ij

ii i.

, , ..... , , ..... .=

= =12 12

3.3.2. Nube de perfiles columna

En el espacio Rn cada punto representa un perfil columna y esta dotado de un peso igual a la

marginal la respectiva columna.

Page 8: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Alvaro Montenegro y Campo Elías Pardo

38

f

fi n j p con peso p f

ij

jj j.

, , ..... , , .....=

= =12 12 $

3.3.3. La distancia ji -cuadrado entre perfiles

La distancia ji -cuadrado entre dos perfiles línea i e i’ viene dada por:

d i if

f

f

f

fj

ij

i

ij

ij

p2

2

1

1( , )

. . .

′ = −

′=∑ (3.1)

Para el caso de dos líneas, esta distancia, es la suma de la diferencia de cada una de las

respectivas componentes de los dos perfiles, ponderadas por el inverso de las frecuencias

marginales de las columnas respectivas (ver figura 3.3).

j i perfil i i’ perfil i’ pesos de columnas f .j

Figura 3.3: Significado de la distancia j i-cuadrado

Con este peso las diferencias se ampli fican cuando se deben a columnas de baja frecuencia,

es decir tiende a destacar los casos raros. De manera simétrica, la distancia entre perfiles

columna es:

d j jf

f

f

f

fi

ij

j

ij

ji

n2

2

1

1( , )

. . .

′ = −

′=∑ (3.2)

Page 9: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Introducción al análisis de datos textuales 39

La distancia ji -cuadrado se puede escribir como una distancia euclidiana convencional, lo

cual se ha ilustrado en el ejemplo:

d i if

f f

f

f f

ij

i j

ij

i jj

p2

2

1

( , ). . . .

′ = −

′=∑ (3.3)

3.3.4. La equivalencia distribucional de la distancia ji -cuadrado

Si &wi y

&wl son dos perfiles idénticos, entonces están representados por el mismo punto en

Rp. Si se reemplazan los dos puntos por un punto común de peso la suma de los pesos (f i. +

f l.), entonces las distancias de los demás puntos, tanto en Rp como en Rn permanecen

inalteradas. Igual resultado se obtiene para dos perfiles idénticos en Rn.. En Crivisqui

[1993] hay una descripción bastante pedagógica de esta propiedad. Con la distancia ji -

cuadrado los resultados son robustos respecto a la arbitrariedad en la determinación del

número de categorías filas y categorías columna, en un análisis. Otra implicación práctica

de la equivalencia distribucional es la de poder agregar filas o columnas de perfiles

similares sin perturbar demasiado la distancia entre puntos.

3.3.5. Centro de gravedad de la nube de perfiles fila (en Rp)

Si se consideran los puntos y sus pesos como un sistema de masas en el espacio, se

encuentra un punto en torno al cual las masas están en el equili brio, que es precisamente el

centro de gravedad. La fuerza necesaria aplicada en el centro de gravedad para mantener

suspendido el sistema de masas es lo que se denomina la inercia y es una medida de la

dispersión de la nube de puntos. La inercia se puede calcular respecto a cualquier otro

punto, pero tal inercia es superior a la inercia respecto al centro de gravedad. Si se tiene un

sistema de ejes ortogonales, entonces la inercia de la nube respecto al centro de gravedad se

Page 10: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Alvaro Montenegro y Campo Elías Pardo

40

puede descomponer como la suma de las inercias a lo largo de cada uno de los ejes. Es por

las razones anteriores que los calculos se hacen respecto al centro de gravedad.

Sea la matriz X, de termino general:

xf

f fi j

ij

i j

=$ $

(3.4)

Las filas de esta matriz son los vectores, wi que se representan en Rp:

&

� �

$ $ $ $′ =

wf

f f

f

f fi

i

i

ip

i p

1

1

(3.5)

Sea &g el vector de p componentes, centro de gravedad de la nube de perfiles fila, la

componente j es:

g pf

ff

f

f ffj i

i

nij

i i

n

i

ij

i j

j=

=

=

= =∑ ∑

1 1..

. .

. (3.6)

es decir que [ ]&� �′ =g f f fj p. . .1 (3.7)

La distancia del centro de gravedad al origen de coordenadas es:

( )d g f jj

p2

2

1

0 1( , )& &

$= ==

∑ (3.8)

Restando el centro de gravedad a todos los vectores se obtiene una matriz de perfiles

centrados, ( )Y yij= , donde:

Page 11: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Introducción al análisis de datos textuales 41

yf

f ff

f f f

f fij

ij

i jj

ij i j

i j

= − =−

$ $$

$ $

$ $ (3.9)

En general para un perfil i el término de la ecuación (3.9) es la j-ésima componente del

vector asociado centrado, Wci.

3.3.6. Inercia de la nube de puntos

La inercia de la nube de puntos respecto al centro de gravedad es:

( )I p w f

f f f

f f

f f f

f f ki cii

n

iij i j

i jj

p

i

nij i j

i jj

p

i

n

= =−

=

−=

= == ==∑ ∑∑ ∑∑2

1 11

2 2

11

2

$$ $

$ $

$ $

$ $

χ (3.10)

donde χ2 es la estadística ji -cuadrado, de la prueba de independencia, calculada para la tabla

de contingencia K y k es el número total de individuos en la tabla. Crivisqui (1993) ilustra

el hecho de que la nube de puntos perfiles es una hiperesfera en el caso de independencia en

la tabla de contingencia. La inercia es un índice de deformación de la nube y se puede

descomponer en los diferentes ejes de la representación.

3.4. Solución del análisis de correspondencias simples - ACS

Lo que se tiene hasta ahora son dos representaciones que contienen la información de la

tabla de contingencia: la nube de perfiles fila y la nube de perfiles columna, con puntos

ponderados, centradas y con una inercia asociada. Esta información es apta para llevar a

cabo dos análisis de componentes principales con ponderación, que consiste en la

proyección de la nube de puntos fila (columna) sobre subespacios de dimensión reducida,

Page 12: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Alvaro Montenegro y Campo Elías Pardo

42

escogidos de forma que la proyección conserve la mayor dispersión posible. La solución

tiene propiedades particulares derivadas de la propiedades de las tablas de perfiles.

Para encontrar el subespacio (plano de proyección, en el caso de dos dimensiones), que se

aproxime lo mejor posible a la nube de n puntos (perfiles fila i), dotados de los pesos fi., se

hace un análisis en componentes principales de la matriz Y, cuyo término general está dado

en la ecuación 3.9, con la métrica N = diag(fi.), es decir la matriz diagonal que contiene las

marginales fila de la tabla de frecuencias, asociada a la tabla de contingencia. La matriz a

diagonalizar es A = Z’Z, donde

Z N Y esdecir z p y zf f f

f fij i ij ij

ij i j

i j

= = ⇒ =−1

2 , $ $

$ $ (3.11)

El vector de coordenadas de todos los individuos sobre el eje α es: & &ψ α α= Yu . Para un

individuo i la coordenada es, entonces:

ψ α αiij i j

i jj

p

j

f f f

f fu=

=∑ $ $

$ $1

(3.12)

el vector de coordenadas de los individuos sobre un eje está centrado y tiene como norma el

valor propio asociado:

f y fi ii

n

i ii

n

$ $&

ψ ψ ψ λα α α α= =∑ ∑= = =

1

2 2

1

0 (3.13)

Para todos los perfiles y se verifica:

& &$

$ $

$ $′ =

−=

=∑w g f

f f f

f fi i

ij i j

i jj

p

1

0 (3.14)

Page 13: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Introducción al análisis de datos textuales 43

es decir que el vector centro de gravedad es perpendicular a todos los puntos perfiles

centrados, lo cual indica que la nube de puntos esta en un subespacio de dimensión p-1,

ortogonal a g y que g es un vector propio se A, asociado al valor propio 0. Esta propiedad

permite obtener la solución del problema sin necesidad de centrar los datos, lo cual se

puede estudiar en Lebart et al. (1984). De ese hecho se deriva también que el vector de

coordenadas de las proyecciones se puede obtener mediante:

& &ψ α α= Xu (3.15)

El análisis de los perfiles columna en Rn se obtiene de la misma manera, intercambiando los

papeles de los subíndices i y j. Las coordenadas sobre los ejes factoriales son, entonces:

ϕ α αiij

i jji

f

f fv= ∑

o o

(3.16)

y el vector de coordenadas sobre un eje factorial es:

& &ϕ α α= ′X v (3.17)

3.4.1. Relaciones entre los espacios fila y columna

El análisis tiene propiedades que permiten obtener la solución para la nube de puntos

columna a partir de la solución de la nube de puntos fila o viceversa, mediante las

siguientes relaciones de transición entre los espacios fila y columna:

• Vectores propios de un espacio en función del otro

uf

f fvj

ij

i ji

n

iαα

αλ=

=∑1

1 o o

(3.18)

Page 14: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Alvaro Montenegro y Campo Elías Pardo

44

vf

f fuj

ij

i jj

p

jαα

αλ=

=∑1

1 o o

(3.19)

• Coordenadas en función de los vectores propios del otro espacio

ψ λα α αi

i

if

v= 1

o

(3.20)

ϕ λα α αj

j

jf

u= 1

o

(3.21)

• Relaciones bibar icentr icas

ψλ

ϕαα

αiij

ij

p

j

f

f=

=∑1

1 o

(3.22)

ϕλ

ψαα

αjf

fiij

ji

n

i=

=∑1

1 o

(3.23)

Exceptuando el coeficiente 1 λ , la coordenada de un punto es el baricentro de los puntos

de la otra nube, con pesos iguales a los elementos del perfil . Haciendo la dilatación

apropiada las dos nubes se pueden representar simultáneamente sobre el mismo plano.

3.4.2. Proyección de elementos suplementarios

Page 15: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Introducción al análisis de datos textuales 45

Sobre los ejes factoriales se pueden proyectar filas y columnas que no hayan participando

en el análisis. Los términos con K hacen referencia a la tabla de contingencia y el signo + a

información suplementaria.

• Fila suplementar ia, i+

ψλ

ϕi

ij

ij

p

j

k

k++

+=

=

∑1

1 o

(3.24)

• Columna suplementar ia, j+

ϕλ

ψjk

kiij

ji

n

i+

+

+=

=

∑1

1 o

(3.25)

3.4.3. Índices para ayudar a la interpretación de los ejes y a la lectura de las proyecciones

En un análisis se requiere establecer qué significado se le puede dar a cada uno de los ejes

de interés o en, otras palabras, qué modalidades contribuyen más a la formación del eje,

para ello se utili zan las contribuciones absolutas.

• Contr ibución absoluta del punto i en el eje αα, caαα(i)

( )ca if i i

αα

α

ψλ

= o2

(3.26)

Es la proporción con que cada punto contribuye a la inercia del eje. Los puntos que tengan

contribución absoluta fuerte son los que fijan la posición del eje.

Page 16: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Alvaro Montenegro y Campo Elías Pardo

46

Las proyecciones sobre los ejes y sobre los planos factoriales serán muy buenas para

algunos puntos pero también pueden ser de mala calidad para otros puntos, se requiere

entonces de un índice que ponga en evidencia este hecho.

• Contr ibución relativa del eje αα a la posición de un punto i, crαα(i)

( ) ( )cr id i g

αψ=

2

2 , (3.27)

Estos valores son los cosenos cuadrados y miden la calidad de la representación de los

puntos.

3.5. Resultados del análisis de correspondencia de la tabla léxica agregada del ejemplo

Los planos de proyección se obtienen con dos de los ejes o factores principales obtenidos.

Como los ejes se enumeran según la inercia que retienen, el primer plano principal es la

mejor proyección de las nubes de puntos. En general no es suficiente analizar el primer

plano y una primer decisión en la lectura de los resultados es determinar cuántos ejes vale la

pena interpretar: La herramienta para ello es el histograma de valores propios (figura 3.4).

HISTOGRAMME DES 3 PREMIERES VALEURS PROPRES

+--------+------------+----------+----------+----------------------------------------------------------------------------+

| NUMERO | VALEUR | POURCENT.| POURCENT.| |

| | PROPRE | | CUMULE | |

+--------+------------+----------+----------+----------------------------------------------------------------------------+

| 1 | .1145 | 64.01 | 64.01 | ************************************************************************** |

| 2 | .0478 | 26.75 | 90.76 | ********************************** |

| 3 | .0165 | 9.24 | 100.00 | ************ |

+--------+------------+----------+----------+----------------------------------------------------------------------------+

Figura 3.4: Histograma de valores propios para el ACS de la tabla léxica agregada del

ejemplo

Page 17: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Introducción al análisis de datos textuales 47

En el ejemplo la representación completa está en tres dimensiones, por lo cual al leer el

primer plano solo se pierde una dimensión. El porcentaje de inercia (información en el

sentido de dispersión de la nube), retenido por el primer plano es el 91%. Por lo tanto es de

esperarse que en tal plano este prácticamente toda la información relevante (figura 3.5). En

la tabla 3.5 se muestra la información tabulada dada por el SPAD-T.

EDITION DES COORDONNEES ET CONTRIBUTIONS DES COLONNES

----------------------------------------------------------------------------------------------------------------------------------------------------------------------- IDEN LIBELLES MASSES DISTO2 * COORDONNEES * CONTRIBUTIONS ABS* COSINUS CARRES *

********************************************************************************************

* * F1 F2 F3 * F1 F2 F3 * F1 F2 F3 *

********************************************************************************************

TETM Emp.Tec.Mod. .242 .30 * -.51 .20 -.01 *55.54 20.13 .11 * .87 .13 .00 *

TTMO Tec.Mod. .225 .08 * .01 -.21 .21 * .01 19.90 57.58 * .00 .50 .50 *

TCTM Cam.Tec.Mod. .265 .08 * .02 -.24 -.16 * .11 31.12 42.28 * .01 .68 .32 *

TCTR Cam.Trad. .268 .24 * .44 .23 .00 *44.34 28.85 .03 * .79 .21 .00 *

--------------------------------------------------------------------------------------------

EDITION DES COORDONNEES ET CONTRIBUTIONS DES LIGNES

--------------------------------------------------------------------------------------------

MOTS MASSES DISTO2 * COORDONNEES *CONTRIBUTIONS ABSO * COSINUS CARRES *

********************************************************************************************

* F1 F2 F3 * F1 F2 F3 * F1 F2 F3 *

********************************************************************************************

ADMINISTRACION .208 .11 * -.32 -.03 -.10 *18.81 .29 13.31 * .90 .01 .09 *

ADMINISTRADOR .091 .47 * -.63 .27 .06 *31.53 13.74 2.18 * .84 .15 .01 *

AGRICULTOR .074 .56 * .70 .24 -.07 *31.91 8.85 2.05 * .89 .10 .01 *

CULTIVO .094 .16 * .04 -.36 -.16 * .11 25.59 15.39 * .01 .82 .17 *

LABORES .120 .08 * .01 .23 .17 * .01 12.98 20.90 * .00 .64 .36 *

MANEJO .199 .01 * .07 -.02 -.04 * .77 .15 2.15 * .67 .06 .27 *

PERSONA .117 .17 * .40 .12 -.02 *16.35 3.46 .26 * .92 .08 .00 *

PROPIETARIO .097 .25 * .08 -.42 .27 * .51 34.94 43.76 * .02 .68 .29 *

--------------------------------------------------------------------------------------------

Tabla 3.5: coordenadas y contr ibuciones de filas y columnas

El primer eje contrapone el texto campesino tradicional (lado positivo) al texto

empresar io tecnificado moderno (lado negativo). Las palabras AGRICULTOR y

PERSONA aparecen al lado positivo del primer eje contraponiéndose a las palabras

Page 18: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Alvaro Montenegro y Campo Elías Pardo

48

ADMINISTRADOR y ADMINISTRACIÓN. Estos dos hechos ponen de manifiesto una

correspondencia de las palabras AGRICULTOR y PERSONA con el texto campesino

tradicional y de las palabras ADMINISTRADOR y ADMINISTRACIÓN con empresar io

tecnificado moderno.

En el plano se observan como más cercanos los textos de tecnificado moderno y

campesino tecnificado moderno, pero la calidad de la representación no es buena (50% y

69% respectivamente). El hecho de que el texto campesino tradicional aparezca cerca a las

palabras AGRICULTOR, PERSONA y LABORES significa que estas tres palabras son las

de mayor frecuencia en el perfil de este texto. De manera análoga la cercanía entre

AGRICULTOR y campesino tradicional manifiesta que esta palabra es usada con mayor

frecuencia por este grupo, lo cual se puede verificar en la tabla de perfiles.

Page 19: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Introducción al análisis de datos textuales 49

Figura 3.5: Pr imer plano factor ial

Las palabras cercanas (si están bien representadas en el plano) tienen perfiles similares. Las

más cercanas son: CULTIVO y PROPIETARIO, es necesario verificar la calidad de

representación en el plano, es decir la suma de cosenos cuadrados de los dos primeros ejes,

esta son: 83% y 71%, para las dos palabras respectivamente. En parte la cercanía se debe a

la proyección. La palabra más cercana al perfil medio es MANEJO, lo cual es también

cierto en el espacio original pues tiene la menor distancia al origen (0.01), esto se había

observado directamente en los perfiles.

3.6 Aplicación del análisis de correspondencias a datos textuales

Page 20: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Alvaro Montenegro y Campo Elías Pardo

50

3.6.1 Análisis de correspondencia de una tabla léxica: respuestas* formas

“La tabla de contingencia a analizar es una matriz dispersa de grandes dimensiones, la

información significativa está repartida sobre numerosos ejes y la interpretación del análisis

factorial presenta muchas dificultades. Sin embargo, el análisis se la tabla

respuestas* formas podrá ser útil en una primera fase de exploración de los datos. En este

caso solo intervendrán las repeticiones suficientemente numerosas e insistentes. Podremos

ver las grandes ideas presentes en las respuestas y percibir las asociaciones entre formas”

(Bécue, 1991, pág.41).

El análisis se puede enriquecer proyectando como ilustrativos los segmentos repetidos de la

tabla respuestas*segmentos y se pueden detectar asociaciones entre el vocabulario y

características de los individuos proyectando como ilustrativas respuestas a preguntas

cerradas.

3.6.2 Análisis de una tabla léxica agregada: formas*textos

En la sección 3.5 se hace el análisis de una tabla léxica agregada, con lo cual se pueden ver

asociaciones entre el vocabulario utili zado y una variable categórica de la información

cerrada. “Si las respuestas individuales han sido agregadas con un criterio adecuado, el

análisis de estas tablas revela una estructura en los datos textuales que no se hubiera

manifestado mediante la simple lectura.” (Bécue, 1991, pág.41).

Se suelen obtener variables mediante el cruce de otras, por ejemplo sexo*grupos de edad,

grupos de edad*nivel profesional, etc. y utili zar esas variables para hacer análisis de tablas

léxicas agregadas. Cuando se tienen varias variables de un mismo tema no es posible

cruzarlas todas, ya que se tendría una variable con muchas modalidades, algunas de ellas sin

individuos. Una alternativa es la de crear una variable nominal mediante un análisis de

correspondencias múltiples y clasificación.

Page 21: 3. ANÁLISIS DE CORRESPONDENCIAS SIMPLESLISIS DE CORRESPONDENCIAS SIMPLES El análisis de correspondencias simples es un procedimiento estadístico multivariado ... En el espacio Rn

Introducción al análisis de datos textuales 51

3.6.3 Análisis de tablas léxicas agregadas yuxtapuestas

Se forma una tabla en la cual las filas son las formas gráficas y las columnas son

particiones yuxtapuestas correspondientes a diferentes variables. Las distancias entre

formas son las distancias medias, con la misma importancia para cada una de las

particiones. Para que la interpretación de las proximidades entre formas sea posible es

necesario que las particiones no sean demasiado heterogéneas. (Lebart y Salem, 1994). En

el capítulo 5 se presenta un ejemplo de análisis de tabla léxicas agregadas yuxtapuestas.