componentes principales y coordenadas principales: estudio

24
Componentes principales y coordenadas principales: estudio comparativo basado en una aplicación a la taxonomía numérica R e s u m e n — Arce, Osvaldo E. A.; Nora E. De Marco; María R. Santillán. 2009. “Componentes principales y coordenadas principales: estudio comparativo basado en una aplicación a la taxonomía numérica”. Lilloa 46 (1-2). El objetivo del trabajo es realizar un es- tudio comparativo de las ordenaciones obtenidas mediante la aplicación de componentes prin- cipales y coordenadas principales a una matriz de datos mixtos correspondiente a los taxones argentinos del género Echinochloa ( Poaceae), bajo diferentes condiciones de aplicación. Se uti- lizaron los datos sin estandarizar y estandarizados por desvío estándar o rango. En coorde- nadas principales se usaron: distancia Euclidiana, disimilaridades Manhattan, Bray Curtis, Canberra y el coeficiente de similaridad de Gower. Para la comparación de resultados obte- nidos se emplearon varias técnicas. Los análisis se corrieron en el paquete NTSys. En los casos que fueron necesarios se aplicaron correcciones por autovalores negativos por los métodos de Lingoes y Cailliez. El uso de los diagramas de Shepard y correlaciones entre matrices resultó muy útil para juzgar las ordenaciones. La estandarización resultó el elemento más importante para la obtención de ordenaciones apropiadas. El coeficiente de Gower ma- nejó apropiadamente la naturaleza mixta de las variables. La presencia de autovalores nega- tivos no introdujo distorsiones importantes en espacios de dimensión reducida. Palabras claves: ordenación, Echinochloa, estadística multivariada, autovalores negativos, diagramas de Shepard, NTSys, coeficiente de Gower. A b s t r a c t — Arce, Osvaldo E. A.; Nora E. De Marco; María R. Santillán. 2009. “Principal components and principal coordinates: a comparative study based on an implemen- tation to numerical taxonomy”. Lilloa 46 (1-2). The objective of the present paper is to com- pare ordinations obtained from principal components and principal coordinates using a mixed data matrix corresponding to the Argentinean taxa of Echinochloa ( Poaceae) under different application conditions. The following coefficients were used in principal coordinates: Euclidean distance, Manhattan, Bray Curtis and Canberra dissimilarities, and Gower similarity coeffi- cient. Unstandardized and range or standard deviation standardized data were used. Ordina- tion comparisons were accomplished using several techniques. All the analyses were run on the package NTSys. Corrections for negative eigenvalues were applied when necessary by means of Lingoes and Cailliez methods. Using Shepard diagrams and matrix to matrix corre- lations was very useful in order to judge ordinations. Standardization was the most important element to obtain appropriate ordinations. Gower coefficient handled appropriately the vari- ables mixed nature. No important distortions in reduced dimensionality spaces were obtained when negative eigenvalues were present. Keywords: Ordination, Echinochloa, multivariate statistics, negative eigenvalues, Shepard diagrams, NTSys, Gower coefficient. Arce, Osvaldo E. A. 1 ; Nora E. De Marco 1 ; María R. Santillán 2 1 Facultad de Agronomía y Zootecnia. 2 Facultad de Ciencias Económicas. Universidad Nacional de Tucumán. E-mail: [email protected] Recibido: 21/08/08 – Aceptado: 27/07/09 INTRODUCCIÓN La diversidad de los organismos biológi- cos despertó la curiosidad del hombre desde sus inicios. En un principio se comenzaron a observar y diferenciar los animales y plan- tas. Luego se les pusieron nombres. Cuando el adelanto tecnológico permitió la movili- dad de un lugar a otro del planeta el núme- ro de seres vivos conocidos se fue incremen- tando y surgió la necesidad de reunirlos en grupos definidos. Así es como surge la Taxonomía (palabra de origen griego que significa “ley o norma de ordenación”), que es la ciencia de la cla- sificación (De La Sota, 1982). Lilloa 46 (1–2): 10–33, 2009 10

Upload: others

Post on 27-Jun-2022

13 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Componentes principales y coordenadas principales: estudio

O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica10

Componentes principales y coordenadas principales:estudio comparativo basado en una aplicación a lataxonomía numérica

➤ R e s u m e n — Arce, Osvaldo E. A.; Nora E. De Marco; María R. Santillán. 2009.“Componentes principales y coordenadas principales: estudio comparativo basado en unaaplicación a la taxonomía numérica”. Lilloa 46 (1-2). El objetivo del trabajo es realizar un es-tudio comparativo de las ordenaciones obtenidas mediante la aplicación de componentes prin-cipales y coordenadas principales a una matriz de datos mixtos correspondiente a los taxonesargentinos del género Echinochloa (Poaceae), bajo diferentes condiciones de aplicación. Se uti-lizaron los datos sin estandarizar y estandarizados por desvío estándar o rango. En coorde-nadas principales se usaron: distancia Euclidiana, disimilaridades Manhattan, Bray Curtis,Canberra y el coeficiente de similaridad de Gower. Para la comparación de resultados obte-nidos se emplearon varias técnicas. Los análisis se corrieron en el paquete NTSys. En loscasos que fueron necesarios se aplicaron correcciones por autovalores negativos por losmétodos de Lingoes y Cailliez. El uso de los diagramas de Shepard y correlaciones entrematrices resultó muy útil para juzgar las ordenaciones. La estandarización resultó el elementomás importante para la obtención de ordenaciones apropiadas. El coeficiente de Gower ma-nejó apropiadamente la naturaleza mixta de las variables. La presencia de autovalores nega-tivos no introdujo distorsiones importantes en espacios de dimensión reducida.

Palabras claves: ordenación, Echinochloa, estadística multivariada, autovalores negativos,diagramas de Shepard, NTSys, coeficiente de Gower.

➤ A b s t r a c t — Arce, Osvaldo E. A.; Nora E. De Marco; María R. Santillán. 2009.“Principal components and principal coordinates: a comparative study based on an implemen-tation to numerical taxonomy”. Lilloa 46 (1-2). The objective of the present paper is to com-pare ordinations obtained from principal components and principal coordinates using a mixeddata matrix corresponding to the Argentinean taxa of Echinochloa (Poaceae) under differentapplication conditions. The following coefficients were used in principal coordinates: Euclideandistance, Manhattan, Bray Curtis and Canberra dissimilarities, and Gower similarity coeffi-cient. Unstandardized and range or standard deviation standardized data were used. Ordina-tion comparisons were accomplished using several techniques. All the analyses were run onthe package NTSys. Corrections for negative eigenvalues were applied when necessary bymeans of Lingoes and Cailliez methods. Using Shepard diagrams and matrix to matrix corre-lations was very useful in order to judge ordinations. Standardization was the most importantelement to obtain appropriate ordinations. Gower coefficient handled appropriately the vari-ables mixed nature. No important distortions in reduced dimensionality spaces were obtainedwhen negative eigenvalues were present.

Keywords: Ordination, Echinochloa, multivariate statistics, negative eigenvalues, Sheparddiagrams, NTSys, Gower coefficient.

Arce, Osvaldo E. A.1; Nora E. De Marco1; María R. Santillán2

1 Facultad de Agronomía y Zootecnia.2 Facultad de Ciencias Económicas.Universidad Nacional de Tucumán. E-mail: [email protected]

Recibido: 21/08/08 – Aceptado: 27/07/09

INTRODUCCIÓN

La diversidad de los organismos biológi-cos despertó la curiosidad del hombre desdesus inicios. En un principio se comenzaron aobservar y diferenciar los animales y plan-tas. Luego se les pusieron nombres. Cuando

el adelanto tecnológico permitió la movili-dad de un lugar a otro del planeta el núme-ro de seres vivos conocidos se fue incremen-tando y surgió la necesidad de reunirlos engrupos definidos.

Así es como surge la Taxonomía (palabrade origen griego que significa “ley o normade ordenación”), que es la ciencia de la cla-sificación (De La Sota, 1982).

Lilloa 46 (1–2): 10–33, 2009 10

Page 2: Componentes principales y coordenadas principales: estudio

Lilloa 46 (1–2): 10–33, 2009 11

Una doctrina dentro de esta ciencia es elfeneticismo, el cual se basa en el estudio delas relaciones taxonómicas fenéticas, enten-diéndose como tales a aquellos arreglos porsimilitud total basados en todos los caracte-res disponibles para los objetos u organis-mos bajo estudio sin una ponderación de losmismos (Crisci y López Armengol, 1983; Dela Sota, 1982; Sneath y Sokal, 1973).

Debido a que los caracteres empleadosen estudios de este tipo deben ser cuantifica-dos con precisión es que al enfoque feneti-cista de la taxonomía se le ha llamado taxo-nomía numérica. Esta taxonomía empleaentonces técnicas numéricas, entendiéndosecomo tales, aquéllas que mediante operacio-nes matemáticas calculan la afinidad entreunidades taxonómicas a base del estado desus caracteres.

Al trabajar con caracteres cuantitativos ocualitativos codificados es que la taxonomíadebió valerse de las técnicas proporcionadaspor la estadística. Por otra parte, como cadaentidad está caracterizada por múltiplesatributos, es la estadística multivariada laprincipal proveedora de herramientas deanálisis para estudios taxonómicos de tiponumérico.

Las técnicas clasificatorias basadas eninformación estrictamente numérica comen-zaron a desarrollarse a mediados del sigloXX. Sin embargo el gran auge de las mismasse da con la difusión masiva de las compu-tadoras a fines de los ‘80. Numerosos pa-quetes estadísticos han sido desarrolladosdesde entonces, lo cual ha puesto estas herra-mientas de análisis a disposición de toda lacomunidad científica y técnica.

Entre todas las técnicas usadas en taxo-nomía numérica, los métodos basados enautovalores y autovectores (ordenación) talescomo componentes principales (Peña, 2002;Hair et al., 1999; Legendre y Legendre,1998; Gnanadesikan, 1997; Jobson, 1992;Johnson y Wichern, 1992; Everitt y Dunn,1991; Jolliffe, 1986; Anderson, 1984; Dillony Goldstein, 1984; Seber, 1984; Karson,1982; Mardia et al., 1979; Morrison, 1967),y coordenadas principales (también llamadoescalado multidimensional métrico) (Peña,

2002; Legendre y Legendre, 1998; Legendrey Anderson, 1998; Jobson, 1992; Jolliffe,1986; Seber, 1984; Gower y Digby, 1981;Gower, 1966) han sido ampliamente usados.Otras técnicas han sido utilizadas también,aunque en menor grado, como ser análisisde factores, escalas multidimensionales nométricas y análisis canónico.

En taxonomía numérica estas técnicas seusan para obtener grupos a partir de repre-sentaciones gráficas bi y/o tridimensionales,es decir, se usan como una alternativa alanálisis de conglomerados (“cluster” análi-sis) y con fines clasificatorios.

La calidad de las representaciones gráfi-cas obtenidas a partir de los métodos de or-denación ha sido motivo de numerosos tra-bajos. Al ser dichas representaciones en es-pacios de dimensión reducida el elementoque el investigador tomará en cuenta paraextraer conclusiones válidas sobre su traba-jo, es que se debe asegurar que éstas sean lomás fieles posibles a las matrices de proxi-midades en las que éstos se basan.

Moss (1968) fue uno de los primeros au-tores en plantear que la aplicación de dife-rentes técnicas puede conducir a resultadosdiferentes y, en consecuencia, a conclusionestaxonómicas distintas. Realiza estudios com-parativos aplicando diferentes técnicas(componentes principales, coordenadasprincipales y escalas multidimensionales nométricas) a los mismos datos.

Las primeras presentaciones de estos mé-todos y discusión de sus propiedades se pre-sentan en el clásico libro de Sneath y Sokal(1973).

Rohlf (1972) trabaja en la comparaciónde distintos métodos de ordenación y usa al-gunos datos simulados muy simples. Su inte-rés radica principalmente en el efecto de losdatos faltantes. Propone algunas medidasque pueden ser usadas para evaluar la cali-dad de las representaciones gráficas.

Thorpe (1980) trabaja sobre razas de laserpiente Natrix natrix y compara variosmétodos de ordenación: componentes princi-pales, coordenadas principales, escalas mul-tidimensionales no métricas. Los datos conlos que trabaja representan un modelo taxo-

Page 3: Componentes principales y coordenadas principales: estudio

O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica12

nómico conocido. Llega a la conclusión quela estandarización es recomendable.

Pimentel (1981) realiza un trabajo simi-lar al de Thorpe para especies de Abronia.Trabaja con componentes principales, coor-denadas principales, escalas multidimensio-nales no métricas y mapeo linear. Aplica elcoeficiente de Gower.

Hartmann (1988) compara métodos deordenación empleando datos de dientes deHomínidos. Analiza el efecto de la estandari-zación de datos y propone comparar el ajusteentre diferentes métodos usando coeficientesde correlación entre matrices de distancias ymatrices derivadas a partir de los puntos enlos espacios de dimensión reducida.

En todos los casos se concluye que lasdiferentes combinaciones de tipos de datos,estandarización, coeficientes de disimilari-dad / similaridad y técnica empleada pue-den producir distintos resultados.

En los trabajos mencionados previamentelos autores trabajaron con variables de tipomixto, es decir, datos con variables cuantita-tivas y cualitativas codificadas. Según Thor-pe (1980) la codificación otorga a los datosno numéricos un carácter de numéricos ypropone estandarizarlos como si se tratarande variables de este tipo. Pimentel (1981)realiza su estudio sobre Abronia aplicandoun concepto similar.

Crisci y López Armengol (1983) aplicancomponentes principales a una matriz deespecies del género Bulnesia constituida por23 variables cuantitativas y 20 categóricascodificadas. También trabajan con las varia-bles codificadas como si se trataran de va-riables numéricas. El uso de matrices de da-tos que contienen variables de tipo mixto esmuy común en estudios de taxonomía numé-rica, no habiéndose dado la importancia queel tema tiene en la bibliografía existente so-bre análisis estadístico multivariado.

Componentes principales y la mayoría delas medidas de di/similaridad existentes,empleadas en coordenadas principales, nohan sido diseñadas para manejar matrices dedatos mixtos. Gower (1971) presenta unaalternativa, la única encontrada por los au-tores, para manejar datos de este tipo.

En trabajos posteriores (Peña, 2002; Le-gendre y Legendre, 1998; Gower y Legendre,1986; Gower, 1985) se comenzó a dar im-portancia a las propiedades matemáticas delas matrices obtenidas a partir de distintoscoeficientes de disimilaridad o similaridad,ya que la metricidad y euclinidad de los mis-mos son esenciales para la obtención de re-presentaciones apropiadas de los datos enespacios de dimensión reducida. Se discuteasimismo como la estandarización por ran-go puede llevar a la euclinidad a ciertos co-eficientes de disimilaridad.

Legendre y Legendre (1998) proponendos métodos, Cailliez (1983) y Lingoes(1971), para corregir la presencia de auto-valores negativos y asegurar la euclinidadde disimilaridades y similaridades no métri-cas. Legendre y Anderson (1998), desarro-llan un paquete de software (DistPCoA) paraaplicar estas correcciones.

Bramardi (2000) y Rohlf (1990) presen-tan la técnica del árbol de distancia mínima(“minimum-length spanning tree”) comouna manera adicional de evaluar la calidadde las representaciones gráficas al superpo-nerlo sobre la representación obtenida a par-tir de cualquier ordenación.

Rohlf (2009) desarrolla la versión 2.2 delpaquete NTSys-pc para su aplicación en pro-blemas de taxonomía numérica incorporan-do todos los procedimientos que aparecen enla bibliografía sobre el tema desde los men-cionados por Sneath y Sokal (1973) hastalos más modernos, como análisis de “pro-crustes”.

En este trabajo se realizaron todos losanálisis con dicho paquete estadístico.

El objetivo general del presente trabajo esrealizar un estudio comparativo de las orde-naciones obtenidas mediante la aplicaciónde las técnicas de componentes principales ycoordenadas principales a una matriz dedatos correspondiente a los taxones argenti-nos del género Echinochloa (Poaceae: Pani-coideae: Paniceae), bajo diferentes condicio-nes de aplicación.

Los objetivos parciales son:– Analizar el efecto de la estandarización

de datos por desvío estándar o rango sobre

Page 4: Componentes principales y coordenadas principales: estudio

Lilloa 46 (1–2): 10–33, 2009 13

todas las variables y sólo sobre variablescuantitativas en una matriz de datos mixtos.

– Estudiar distintos coeficientes de disimi-laridad y similaridad y su efecto en las re-presentaciones gráficas obtenidas.

– Evaluar los resultados obtenidos alaplicar las técnicas de componentes princi-pales y coordenadas principales.

– Comparar los resultados obtenidos apartir de distintos métodos de corrección deautovalores negativos.

– Evaluar las soluciones obtenidas en es-pacios de dimensión reducida, a partir de laaplicación, a la matriz de datos, de diferen-tes combinaciones de centrado, estandariza-ción, coeficientes de disimilaridad / simila-ridad y técnica de análisis empleada.

METODOLOGÍA

Las evaluaciones metodológicas general-mente involucran simulaciones hechas concomputadoras o el estudio a partir de datosreales que tienen una estructura taxonómicaconocida. La importancia de evaluacionesdel último tipo radica en el hecho de quemodelos matemáticos generados no produ-cen información que pueda ser justificadabiológicamente (Pimentel, 1981).

Thorpe (1980) dice que si se parte dedatos generados por computadora, las técni-cas bajo estudio serán la única base para laconstrucción del modelo taxonómico crean-do de esta manera una lógica circular.

Por este motivo se trabajó con datos rea-les con una estructura taxonómica conocida.En este estudio el modelo taxonómico cono-cido corresponde a De Marco (2002), es de-cir, la estructura de agrupamientos en lamatriz de datos se conocía con anterioridada su análisis estadístico.

Modelo taxonómico.— El género Echino-chloa en la Argentina (De Marco, 2006; Zu-loaga et al., 1994), se encuentra representa-do por 7 especies y 2 variedades: E. colona,E. crusgalli var. crusgalli, E. crusgalli var.mitis, E. cruspavonis, E. chacöensis, E. helo-des, E. oryzoides, E. polystachya var. polysta-chya, E. polystachya var. spectabilis.

Los caracteres exomorfológicos analiza-dos y considerados como relevantes para deli-mitar taxones, determinaron la existencia dedos grandes grupos, el primero de los cualesse encuentra constituido por las siguientesentidades: E. colona (C), E. crusgalli var. crus-galli (VC), var. mitis (VM), E. cruspavonis(CR), E. chacoensis (CH); y el segundo confor-mado por E. oryzoides (O), E. helodes (H), E.polystachya var. polystachya (VP) y var. spec-tabilis (VS). Los caracteres de separaciónpara estos grupos son: la propagación vege-tativa que es cespitosa o rizomatosa, el ciclode la planta que es anual o perenne y la lon-gitud de la espiguilla que varía de 2-5 mm ode (4,5) 5-7 mm de longitud.

El análisis de otros caracteres como laforma de la espiguilla, su longitud y el ápicede la lemma inferior permiten delimitar lossiguientes subgrupos dentro del primer grangrupo: El subgrupo (C), evidencia uniformi-dad y está definido claramente el carácterpredominante que es la presencia de lemmamútica o mucronada. El subgrupo (CR) semanifiesta en forma homogénea y separadodel anterior, los caracteres que contribuyeronson la forma de la espiguilla, que es lanceo-lada y la lemma inferior aristada. El otrosubgrupo está formado por las entidades VCy VM que no se separan claramente por loscaracteres exomorfológicos, lo cual sugiereque pudo haber procesos de hibridación entreellos.

Dentro del segundo gran grupo se encuen-tra los siguientes subgrupos: el subgrupo O enel que los caracteres que contribuyeron a suseparación son la longitud de la espiguilla ylemma inferior con arista hasta de 3 cm delongitud. El subgrupo H presenta uniformi-dad, con sus espiguillas lanceoladas, lemmainferior aristada y su inflorescencia linear ynutante. Los subgrupos formados por las enti-dades VP y VS, en donde caracteres como elde nudos y vainas glabras, nudos setosos-hir-sutos y vainas hirsutas los delimitan. Sin em-bargo, a pesar de que poseen caracteres dife-renciales, son muy similares entre sí.

Puesto que VC y VM no se diferencian cla-ramente, a los fines de este trabajo se losconsiderará como un grupo único. Por lo

Page 5: Componentes principales y coordenadas principales: estudio

O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica14

tanto el número de grupos en estudio es de 8.Se evaluaron 10 individuos de cada uno

de los 9 taxones. Se midieron 9 variablescuantitativas, 11 binarias y 10 cualitativasmultiestado. La descripción de las variablesse encuentra en De Marco (2002). Las varia-bles cualitativas fueron codificadas mediantecódigos numéricos.

En los gráficos de ordenación las referen-cias de los taxones correspondientes son lassiguientes: ● VS, * VP, o C, + O, ✕ H, CR,Δ VC, VM, ∇ CH.

A lo largo de este trabajo se adoptará laconvención de asignar los individuos a las nfilas de la matriz y las variables a las p co-lumnas.

El análisis de componentes principales seaplicó a datos centrados, en todos los casos,tal como lo sugieren Legendre y Legendre(1998). Se trabajó con los datos sin estanda-rizar y estandarizados por desvío estándar orango. El coeficiente de correlación es la co-varianza de las variables centradas y estanda-rizadas por desvío estándar (Johnson y Wi-chern, 1992), razón por la cual calcular lacovarianza de variables así estandarizadas ola correlación de variables no estandarizadasproporcionará la misma matriz de asocia-ción y, por lo tanto, idénticos autovalores.

La estandarización fue aplicada a todaslas variables primero y luego sólo a las va-riables cuantitativas. Los siguientes coefi-cientes fueron aplicados: varianza-covarian-za y correlación, en componentes principa-les; y coeficiente de similaridad general deGower (Bramardi, 2000; Gower, 1971) ydistancias Euclidiana, disimilaridades Man-hattan, Bray Curtis y Canberra (Gower y Le-gendre, 1986; Gower, 1985), en coordena-das principales.

Autovalores negativos.— Autovalores ne-gativos pueden generarse al usar medidas dedistancia semimétricas o no métricas. Tam-bién pueden encontrarse durante el análisisde algunas distancias métricas que no ga-rantizan una completa representación Eucli-diana (Gower y Legendre, 1986). El proble-ma que surge aquí es que los correspondien-tes ejes de ordenación serán imaginarios.

Para estos casos existen dos métodos decorrección disponibles que permiten obte-ner una representación euclídea en todoslos casos.

Método de Lingoes:

donde c es el valor absoluto del autovalornegativo más grande de la corrida del análi-sis de coordenadas principales (Lingoes,1971).

Método de Cailliez:

donde c es el mayor autovalor de una matrizno simétrica especial (Cailliez, 1983).

Detalles sobres estos métodos se encuen-tran en Legendre y Legendre (1998) y se in-cluyen en el paquete estadístico DistPCoA(Legendre y Anderson, 1998).

Para la evaluación de ordenaciones seutilizaron las siguientes técnicas:

Autovalores y porcentaje de varianza explica-da.— Esta es la técnica más usada y amplia-mente recomendada en la bibliografía (Hairet al., 1999; Legendre y Legendre, 1998;Gnanadesikan, 1997; Jobson, 1992; Johnsony Wichern, 1992; Everitt y Dunn, 1991; Jolli-ffe, 1986; Anderson, 1984; Dillon y Golds-tein, 1984; Seber, 1984; Karson, 1982; Mar-dia et al., 1979; Morrison, 1967) para eva-luar representaciones gráficas obtenidas apartir de un análisis de componentes princi-pales.

Es equivalente al coeficiente de determi-nación r2 empleado en análisis de regresión.

Si se consideran un espacio de dimensiónm, con m << p, su expresión será:

Page 6: Componentes principales y coordenadas principales: estudio

Lilloa 46 (1–2): 10–33, 2009 15

e indica el porcentaje de la variabilidad totalexplicada por los primeros m autovalores.

Normalmente se considera que una repre-sentación es apropiada si los dos o tres pri-meros autovalores explican un alto porcen-taje de la variabilidad total.

Legendre y Legendre (1998) indican queesta es también una medida válida en elcaso de coordenadas principales ya que, al-gunas veces, los autovalores obtenidos a par-tir de coordenadas principales son los mis-mos (excepto por un factor de escala) quelos obtenidos a partir de componentes prin-cipales.

Peña (2002) establece que esta medidaindica el grado de bondad de ajuste de larepresentación gráfica en el caso de coorde-nadas principales, ya que en esta técnica losautovalores no corresponden a varianzas.

El módulo EIGEN de NTSys brinda estainformación.

Congruencia entre el modelo taxonómico es-tudiado previamente y el obtenido medianteordenaciones.— Esta metodología fue utili-zada por Hartman (1988), Pimentel (1981) yThorpe (1980).

El esquema 1 resume el procedimientousado.

La congruencia se evaluó determinandosi el número de grupos obtenidos mediantelas ordenaciones concordaba con el númeropresente en el modelo taxonómico conocido.

Gráficos en 2 dimensiones con árboles de re-corrido mínimo superpuestos.— El árbol derecorrido mínimo se calcula a partir de unamatriz de disimilaridades o similaridades.Es útil para su superposición sobre ordena-ciones para ayudar a detectar distorsioneslocales, es decir, pares de puntos que se venpróximos en un gráfico pero que en realidadestán separados si otras dimensiones son to-madas en cuenta (Rohlf, 2009). También seutilizan para una más fácil identificación deagrupamientos.

Gower y Ross (1969) muestran que esteárbol equivale a obtener un agrupamiento(“clustering”) no jerárquico de los objetospor el método de agrupamiento simple.

NTSys incluye estos árboles en el procedi-miento MST.

Diagramas de Shepard.— Estos diagramasfueron originalmente propuestos por Kruskal(1964). Consisten en graficar una matrizcontra la otra, elemento a elemento, igno-rando las diagonales.

McCune y Grace (2002), Gnanadesikan(1997) y Everitt y Dunn (1991) indican queen estos diagramas puede observarse si existeuna relación monótona entre las matrices,lo cual indica una apropiada configuraciónde puntos en el espacio de dimensión reduci-da. La monotonicidad asegura que las dis-tancias interpuntos recuperadas concuerdencon las disimilaridades originales, o sea,

Page 7: Componentes principales y coordenadas principales: estudio

O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica16

cuanto mayor sea la disimilaridad entre dosobjetos, mayor será la distancia interpuntoen la representación euclidiana de estos ob-jetos. Dicho en otras palabras, las relacionesde orden entre las distancias interpuntos enla representación euclidiana está en exactaconcordancia con las relaciones de ordenentre las disimilaridades originales. Si loque se compara es una medida de similari-dad con la distancia, la relación que se bus-ca es la inversa a la anterior, es decir, amayor distancia, menor similaridad.

También se puede observar qué tanpróxima o similar es la matriz de disimilari-dades o similaridades derivada con respectoa la original. Legendre y Legendre (1998)muestran que cuanto más próxima está lanube de puntos a la diagonal del diagrama,más parecidas serán ambas configuraciones.

Además si la nube de puntos está próximaa la diagonal y sigue una tendencia lineal, lasposiciones relativas de los puntos habrán sidorecuperadas con precisión. A veces la relaciónentre ambos espacios no es lineal, lo cual in-

dica que las posiciones relativas recuperadashan sufrido una distorsión.

Estos diagramas están incluidos en elprocedimiento MXCOMP de NTSys.

Correlación entre matrices.— Es una medidade la correspondencia entre los elementos dedos matrices. Esta técnica es recomendadapor Rohlf (1972) para evaluar cuán próximaes la configuración de puntos en espacios dedimensión reducida en relación a la configu-ración de los mismos en el espacio originalp-dimensional.

Legendre y Legendre (1998) sugieren utili-zar la distancia Euclídea en el espacio origi-nal y en el reducido en el caso de componentesprincipales. En coordenadas principales y es-calas multidimensionales no métricas acon-sejan calcular las distancias Euclídeas entrelos objetos en el espacio reducido y comparar-las con las disimilaridades o similaridades enlas cuales se basó la ordenación.

Este procedimiento también fue utilizadopor Hartman (1988) con el fin de evaluar

Page 8: Componentes principales y coordenadas principales: estudio

Lilloa 46 (1–2): 10–33, 2009 17

las correspondencias entre las configuracio-nes obtenidas a partir de distintos análisis delos mismos datos y con el fin de comparar lasimilitud entre los resultados obtenidos.

NTSys permite calcular estas correlacio-nes en el procedimiento MXCOMP.

Concordancia entre el espacio original y elderivado para una ordenación en particu-lar.— Los esquemas 2 y 3 resumen los proce-dimientos utilizados.

En el caso de componentes principales setrabajó de la manera indicada en el esquema 2.

varcovvarne

varcov*varde

varcovvardec

varcovvarrg

varcovvarrgc

centrado

centradodesvío estándar

todas las variables

centradodesvío estándar sólo

variables cuantitativas

centradorango todas la variables

centradorango sólo variables

cuantitativas

234.287936.909522.3580

10.91445.25343.3983

8.79153.60242.5782

1.80880.78880.4958

6.42812.23391.7291

72.726984.184391.1246

36.381553.892865.2203

40.380556.926668.7684

41.690959.871171.2983

47.483463.985376.7580

0.978820.98947

0.905270.93862

0.921720.95762

0.910650.95244

0.906570.97270

0

8

8

8

10

CoeficienteCodificación

GruposidentificadosEstandarización Autovalores

% Var.explicada

Correlaciónorig.–deriv.

en 2 y 3 dim.

Tabla 1. Autovalores, porcentaje de varianza explicada, correlación entre espacio euclidianooriginal y derivado en 2 dimensiones, ídem en 3 dimensiones, y número de grupos identificadosen la representación bidimensional bajo distintas condiciones de estandarización. Palabras encursiva corresponden a la codificación empleada en otras tablas y figuras. varcov = varianza–covarianza; corr = correlación; (*) esta opción es equivalente a la correlación entre variables.

Page 9: Componentes principales y coordenadas principales: estudio

O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica18

En coordenadas principales se trabajó talcomo lo muestra el esquema 3.

Concordancia entre espacios derivados me-diante distintos análisis aplicados a la mis-ma matriz de datos.— Se correlacionaronlas matrices de distancia Euclidiana obteni-das a partir de espacios bidimensionales,para las distintas combinaciones estudiadas,a fin de juzgar la similitud entre las solucio-nes obtenidas (módulo MXCOMP en NTSys).A las matrices de correlaciones obtenidas seles aplicó análisis de conglomerados por elmétodo UPGMA (“unweighted pair-group

arithmetic average clustering”), mediante elmódulo SAHN de NTSys. El procedimiento seindica en el esquema 4.

Hartman (1988) utilizó este procedi-miento aunque realizó una ordenación sobrelas matrices de correlaciones. En este trabajose obtuvieron mejores resultados con el aná-lisis de conglomerados.

RESULTADOS

COMPONENTES PRINCIPALES

Se observa en la tabla 1 que el centradosin estandarización no permitió la identifica-

varnevardevardecvarrgvarrgc

10.208840.283190.125440.16950

10.925270.977920.79844

10.894600.92389

10.89032 1

varrgcvarne varde vardec varrg

Tabla 2. Correlaciones entre distancias Euclidianas en espacios derivados en dos dimensiones.Referencias en Tabla 1.

Page 10: Componentes principales y coordenadas principales: estudio

Lilloa 46 (1–2): 10–33, 2009 19

ción de los 8 grupos. La estandarización yasea por rango (todas las variables) o desvíoestándar (todas las variables y sólo cuantita-tivas) permitió una correcta identificación degrupos. La estandarización por rango sólode variables cuantitativas no resultó apro-piada.

La tabla 2 muestra que la correlaciónentre los espacios euclidianos derivados apartir de datos estandarizados por desvíoestándar y rango presentaron un valor deconcordancia elevado (r = 0.97792) indi-cando que las ordenaciones obtenidas fueronmuy similares cuando se estandarizó todaslas variables. La ordenación con estandari-zación por rango sólo de variables cuantita-tivas es la que menor concordancia presentócon las demás. La relación entre espaciosresultó fuertemente lineal para valores de r> 0.9. Como ejemplo se presenta un diagra-ma de Shepard en la figura 1.

La figura 2 presenta una comparaciónentre distancias Euclidianas en el espacio

derivado bidimensional vs. las mismas dis-tancias en el espacio p-dimensional originalcon estandarización de todas las variables.La figura mencionada muestra que los espa-cios original y derivado no manifestaron unarelación lineal pero sí monótona, generándo-se una distorsión importante en distanciasmedias y bajas, aunque las relaciones de or-den se mantuvieron, por lo que los valoresde correlación entre espacios no represen-tan, en este caso, un buen indicador de lacalidad de las representaciones obtenidas.La gran estructura de agrupamientos (dis-tancias grandes) está representada con preci-sión en la figura 5. Pero aquellos puntos quese encuentran próximos en el espacio p-di-mensional, se verán más próximos en el es-pacio bidimensional de lo que estaban origi-nalmente.

La figura 2 muestra que al estandarizarsólo las variables cuantitativas, por desvíoestándar, la relación entre los espacios esaproximadamente lineal por lo que las dis-

Figura 1. Diagrama de Shepard que muestra la concordancia entre la distancia Euclidiana enespacio bidimensional obtenida por componentes principales de una matriz de correlaciones(Ordenación 1) e igual distancia a partir de una matriz de datos estandarizados por rango (todaslas variables). r = 0.97792

Page 11: Componentes principales y coordenadas principales: estudio

O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica20

tancias se recuperaron con más exactitud en2 dimensiones

Arce (2002, 2003) realizó un estudio si-milar al presente sólo con variables cuanti-tativas y encontró que las relaciones entreespacios fueron fuertemente lineales. La in-clusión de variables cualitativas codificadas,tratadas como si se trataran de variablesnuméricas, seguramente está produciendoeste efecto de no linealidad entre espacios.

Las correlaciones entre espacios origina-les y derivados en 3 dimensiones (tabla 1)resultaron en todos los casos mayores que en2 dimensiones, ya que al ir aumentando di-mensiones nos aproximamos cada vez másal espacio original p-dimensional.

Al analizar los porcentajes de varianzaexplicados por los tres primeros autovaloresen la tabla 1 pudo verse que la estandariza-ción produjo una reducción importante enesos valores. Sin embargo, esto no fue un fac-tor determinante en la identificación de losocho grupos en estudio. Esto está indicando

que el porcentaje de varianza explicada noes, por sí mismo, un buen indicador de la ca-lidad de las representaciones gráficas.

El análisis de los porcentajes de varianzaexplicada y de las figuras 4 y 5 muestra queeste no es un buen criterio para juzgar lacalidad de las representaciones gráficas,como está ampliamente recomendado en labibliografía. Las mejores ordenaciones seobtuvieron con proporciones menores de va-rianza explicada. Se debe tener en cuentaque, en los datos utilizados, las variablesestuvieron medidas en diferentes escalas demedida y, por lo tanto, sus varianzas fueronmuy distintas, alterando los resultados obte-nidos. La estandarización apareció aquícomo un elemento clave a tener en cuenta alrealizar un análisis de componentes principa-les. Si todas las variables hubieran estadomedidas en iguales unidades y, por lo tanto,sus varianzas hubieran sido similares, lamejor ordenación habría sido la de varian-za–covarianza de datos no estandarizados ya

Figura 2. Distancia Euclidiana en espacio derivado bidimensional vs. igual distancia en espaciop-dimensional para componentes principales derivados a partir de una matriz de varianza–cova-rianza de datos estandarizados (todas las variables) por desvío estándar. r = 0.90527.

Page 12: Componentes principales y coordenadas principales: estudio

Lilloa 46 (1–2): 10–33, 2009 21

que, como se observa en la tabla 1, es lacondición que mejor preservó el espacio ori-ginal (r’s próximos a 1).

Esto se nota claramente en las figuras 4 y5. La ordenación a partir de varianza-cova-rianza de datos no estandarizados, que es laque mayor porcentaje de varianza explicadapresentó, no logra separar los 8 grupos. Lafigura 4 muestra el efecto de la estandariza-ción, en la cual se identifican los 8 grupos aúncon menor porcentaje de varianza explicada.

Los árboles de distancia mínima super-puestos a las ordenaciones mostraron clara-mente la estructura de agrupamiento de lascinco poblaciones en las figuras 4 y 5 y per-mitieron detectar las distorsiones que se pro-dujeron en las posiciones relativas de algu-nos puntos próximos.

Las estandarizaciones por desvío estándary por rango (todas las variables) generaronordenaciones casi idénticas (valores muypróximos a 1 en la tabla 2), al comparar losespacios derivados en dos dimensiones paraopciones con desvío estándar vs. aquéllascon rango. Las opciones no estandarizadas

presentaron configuraciones muy distintas alas de las opciones con estandarización (r <0.62).

COORDENADAS PRINCIPALES

Distancia Euclidiana.— Existe dualidad en-tre los resultados obtenidos a partir de com-ponentes principales y coordenadas principa-les sobre una matriz de distancias euclidia-nas. La comparación de las tablas 3 y 1muestra lo mencionado. Los autovalores re-sultan diferentes pero los porcentajes de va-riabilidad explicada son los mismos y tam-bién las ordenaciones obtenidas. Por estemotivo, todo lo enunciado en componentesprincipales es válido para este caso.

Las posiciones relativas de los objetos re-sultaron idénticas, no así sus posiciones ab-solutas. El gráfico de ordenación estuvo rota-do 180º con respecto al de componentesprincipales. No se presenta el gráfico de laordenación de coordenadas principales, perosí el de disimilaridad Manhattan que fue si-milar. La comparación de las figuras 5 y 7permite verificar esta situación.

eucne

eucde

eucdec

eucrg

eucrgc

ninguna

desvíoestándar

desvío estándarsólo cuantitativas

rango

rangosólo cuantitativas

20852.62273285.95331989.8586

971.3848467.5525302.4450

782.4438320.6091229.4570

160.980770.199044.1238

572.0997198.8215153.8913

72.726984.184391.1245

36.381553.892865.2203

40.380556.926668.7684

41.690959.871171.2983

47.483463.985376.7580

0.978820.98947

0.902570.93862

0.921720.95762

0.910650.95244

0.906570.97570

0

8

8

8

10

Codificación GruposidentificadosEstandarización Autovalores

% Varianzaexplicada

Correlacióneuc.–euc.

en 2 y 3 dim.

Tabla 3. Autovalores, proporción de varianza explicada, correlaciones entre espacios euclidia-nos original y derivado en 2 y 3 dimensiones y número de grupos identificados al aplicar coor-denadas principales a matrices de distancia Euclidiana. Palabras en cursiva corresponden a lacodificación empleada en otras tablas y figuras.

Page 13: Componentes principales y coordenadas principales: estudio

O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica22

Disimilaridad Manhattan o City Block.— Lacolumna 6 de la tabla 4 indica la concor-dancia entre el espacio euclidiano original yla disimilaridad Manhattan en el espacio p-dimensional, que fue razonablemente buena(r > 0.90) para los casos con variables es-tandarizadas.

La tabla 5 muestra que las correccionespor autovalores negativos produjeron orde-naciones similares a las opciones no corregi-das (r próximo a 1). En la tabla 4 se ve quelos autovalores negativos tomaron valoresmuy pequeños en relación a los tres primerosvalores propios positivos, razón por la cuallos efectos de la corrección son mínimos.

Las figuras 6 y 7 ponen en evidencia elefecto de la estandarización en la identifica-ción de los grupos.

Disimilaridad de Bray Curtis.— Se traba-jó sólo con la transformación a raíz cuadra-da, que tiene propiedades métricas (no gene-

ra autovalores negativos), y con datos nocentrados. Esta medida de disimilaridad notolera el centrado, produciendo resultadosabsurdos en ese caso tal como fue estudiadopor Arce (2003). La ordenación sólo pudoidentificar 2 grupos (tabla 6). La autonor-malización incluida en este coeficiente nofue suficiente para lograr una correcta iden-tificación de grupos, como se observa en lafigura 8. La ordenación obtenida fue similara la que se obtiene cuando no se estandari-zan las variables.

Disimilaridad Canberra.— La disimilaridadCanberra, autonormalizada al igual que ladisimilaridad de Bray Curtis, generó un espa-cio similar al de las variables estandarizadas.Para la identificación de los 8 grupos fue ne-cesario usar 3 dimensiones (figuras 9 y 10).

El diagrama de Shepard correspondienteno se incluye por ser muy similar a los pre-sentados anteriormente.

manhne

manhde

manhdec

manhrg

manhrgc

Codificación Gruposidentificados

Estanda-rización Autovalores

% Varianzaexplicada

Aut. negativos(autovalor

más pequeño)

Tabla 4. Autovalores, porcentaje de varianza explicada, presencia de autovalores negativos,correlación entre distancia original y derivada en 2 y 3 dimensiones, correlación entre distanciaoriginal y distancia Euclidiana derivada en 2 y 3 dimensiones y correlación entre distancia Eucli-diana original y distancia Euclidiana derivada en 2 y 3 dimensiones, y número de grupos identi-ficados en la representación bidimensional bajo distintas condiciones de estandarización. Pala-bras en cursiva corresponden a la codificación empleada en otras tablas y figuras.

ninguna

desvío estándar

desvío estándarsólo cuantit.

rango

rangosólo cuantit.

77.189045.567321.8463

27.746010.50285.1645

18.85196.11583.4929

4.11121.46990.6892

10.71832.91341.8804

47.316075.248388.6390

54.645175.330285.5015

55.174873.074383.2973

57.939578.654788.3679

60.341776.743587.3297

si(-6.6148)

si(-0.8935)

si(-0.6585)

si(-0.1454)

si(-0.4959)

0.916530.95017

0.946910.98749

0.940220.96792

0.949630.98074

0.949090.97164

0

8

8

8

8

Correlaciónmanh-eucen 2 y 3

dimensiones

Page 14: Componentes principales y coordenadas principales: estudio

Lilloa 46 (1–2): 10–33, 2009 23

De nuevo las correcciones por autovalo-res negativos no mostraron cambios impor-tantes con respecto a la ordenación sin co-rrección (tabla 7).

Coeficiente de similaridad de Gower.— Enla tabla 8 los valores de correlación nega-tivos se deben a que se está comparando

Figura 4. Ordenación de componentes principales obtenidos a partir de una matriz de varianza–covarianza de datos no estandarizados.

Figura 3. Distancia Euclidiana en espacio derivado bidimensional vs. igual distancia en espaciop-dimensional para componentes principales derivados a partir de una matriz de varianza–cova-rianza de datos estandarizados por desvío estándar sólo para variables cuantitativas. r =0.92172.

una medida de similaridad con una de disi-milaridad. El coeficiente de Gower generóun espacio similar al de las variables estan-darizadas.

Los diagramas de Shepard no se incluyenporque son similares a los presentados conanterioridad.

Al igual que en la disimilaridad Canberra,

Page 15: Componentes principales y coordenadas principales: estudio

O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica24

manhdemanhde_lgmandeh_clmanhdecmanhdec_lgmanhdec_clmanhrgmanhrg_lgmanrgh_clmanhrgcmanhrgc_lgmanrghc_cl

10.999800.98490

manhrgcmanhde manhdec manhrg

Tabla 5. Correlaciones entre espacios euclidianos bidimensionales obtenidos por coordenadasprincipales de una matriz de disimilaridad Manhattan sobre datos estandarizados por desvío es-tándar y rango, con y sin correcciones por autovalores negativos. Referencias en tabla 5. (lg= corrección de Lingoes; cl = corrección de Calliez).

10.998830.99687

10.997600.97905

10.999620.99569

Figura 5. Ordenación de componentes principales obtenidos a partir de una matriz de varianza–covarianza de datos centrados y estandarizados por desvío estándar (sólo variables cuantitativas).

Page 16: Componentes principales y coordenadas principales: estudio

Lilloa 46 (1–2): 10–33, 2009 25

la adición de una tercera dimensión mejoróla representación gráfica (figuras 11 y 12).

COMPARACIÓN DE RESULTADOS

DE COMPONENTES PRINCIPALES

Y COORDENADAS PRINCIPALES

El dendrograma (figura 13) muestra cla-ramente la poca concordancia entre configu-raciones con variables estandarizadas y no

estandarizadas, como se observa en el grupode la parte superior (desde varne hasta rc-bray). En este grupo está incluida la disimi-laridad Bray Curtis, que pese a ser auto nor-malizada, generó resultados similares a losde opciones sin estandarizar. Todas las op-ciones en este grupo fracasaron en la sepa-ración de los grupos en estudio.

El grupo ubicado en el sector medio (des-

rcbray

Codificación Gruposidentificados

Estanda-rización Autovalores

% Varianzaexplicada Aut. negativos

Tabla 6. Autovalores, porcentaje de varianza explicada, presencia de autovalores negativos,correlación entre distancia original y derivada en 2 y 3 dimensiones, correlación entre distanciaoriginal y distancia Euclidiana derivada en 2 y 3 dimensiones y correlación entre distancia Eucli-diana original y distancia Euclidiana derivada en 2 y 3 dimensiones, y número de grupos identi-ficados en la representación bidimensional. Palabras en cursiva corresponden a la codificaciónempleada en otras tablas y figuras. (rcbray = √ Bray Curtis).

ninguna 24.773314.81989.4153

24.778339.593249.0084

no 0.853530.90017

2

Correlaciónbray-eucen 2 y 3

dimensiones

Figura 6. Ordenación de coordenadas principales a partir de una matriz de disimilaridad Man-hattan de datos no estandarizados.

Page 17: Componentes principales y coordenadas principales: estudio

O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica26

de varde hasta manhdec_cl) muestra todas lasopciones con resultados similares y que per-mitieron la identificación de los 8 grupos.

La disimilaridad Manhattan produjo re-sultados similares a los de distancia Euclídea.

La autonormalización incluida en la di-

can

canlg

cancl

Codificación Gruposidentificados

Estanda-rización Autovalores

% Varianzaexplicada

Aut. negativos(autovalor más

pequeño)

Tabla 7. Autovalores, porcentaje de varianza explicada, presencia de autovalores negativos,correlación entre distancia original y derivada en 2 y 3 dimensiones, correlación entre distanciaoriginal y distancia Euclidiana derivada en 2 y 3 dimensiones y correlación entre distancia Eucli-diana original y distancia Euclidiana derivada en 2 y 3 dimensiones, y número de grupos identi-ficados en la representación bidimensional. Palabras en cursiva corresponden a la codificaciónempleada en otras tablas y figuras.

ninguna

ningunacorrec. Lingoes

ningunacorrec. Calliez

2.71561.11630..5990

2.81601.21610.6994

5.60822.52861.5509

55.235377.941290.1248

20.331229.115734.1651

33.052647.955357.0955

si(-2.1004)

no

no

0.931540.98410

0.944750.97341

0.928970.98416

8

8

8

Correlacióncan-eucen 2 y 3

dimensiones

Figura 7. Ordenación de coordenadas principales a partir de una matriz de disimilaridad Man-hattan de datos estandarizados por rango (todas las variables).

Page 18: Componentes principales y coordenadas principales: estudio

Lilloa 46 (1–2): 10–33, 2009 27

similaridad Canberra resultó equivalente alas estandarizaciones realizadas en otroscoeficientes.

El coeficiente de similaridad de Gower,diseñado específicamente para variablesmixtas, produjo ordenaciones similares a lasde otros coeficientes con estandarización.

Se observa que las dos técnicas de co-rrección por autovalores negativos genera-ron ordenaciones casi idénticas entre sí y a

la originada por la opción sin corrección.Pero se debe destacar que en los casos estu-diados los valores propios negativos resulta-ron muy próximos a 0 o con valores absolu-tos muy pequeños en relación a los tres pri-meros con valores positivos

En el grupo inferior (desde vardec hastaeucrgc) se encuentran las opciones con estan-darización solo de variables cuantitativas. Alaparecer juntas en el dendrograma indica

gower

Codificación Gruposidentificados

Estanda-rización Autovalores

% Varianzaexplicada

Autovaloresnegativos

Tabla 8. Autovalores, porcentaje de varianza explicada, presencia de autovalores negativos,correlación entre distancia original y distancia Euclidiana derivada en 2 y 3 dimensiones y corre-lación entre distancia Euclidiana original y distancia Euclidiana derivada en 2 y 3 dimensiones, ynúmero de grupos identificados en la representación bidimensional. Palabras en cursiva corres-ponden a la codificación empleada en otras tablas y figuras.

ninguna 13.47886.11714.2227

34.549650.229461.0532

no –0.92484–0.95880

8

Correlacióngower-eucen 2 y 3

dimensiones

Figura 8. Ordenación de coordenadas principales a partir de una matriz de disimilaridad BrayCurtis.

Page 19: Componentes principales y coordenadas principales: estudio

O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica28

Figura 9. Ordenación de coordenadas principales, en 2 dimensiones, a partir de una matriz dedisimilaridad Canberra.

Figura 10. Ordenación de coordenadas principales, en 3 dimensiones, a partir de una matrizde disimilaridad Canberra.

Page 20: Componentes principales y coordenadas principales: estudio

Lilloa 46 (1–2): 10–33, 2009 29

Figura 12. Ordenación de coordenadas principales, en 3 dimensiones, a partir de una matrizde coeficiente de Gower.

Figura 11. Ordenación de coordenadas principales, en 2 dimensiones, a partir de una matrizde coeficiente de Gower.

Page 21: Componentes principales y coordenadas principales: estudio

O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica30

que fueron similares, sin embargo como sevio anteriormente la estandarización porrango solo de variables cuantitativas condujoa una sobreidentificación de grupos.

También se observa la dualidad de com-ponentes principales y coordenadas principa-les con distancia Euclidiana.

DISCUSIÓN

La mayoría de la bibliografía referida aanálisis estadístico multivariado presenta lasdos técnicas mencionadas para situacionesde aplicación en las que se dispone de varia-bles de un solo tipo (Peña, 2002; Hair et al.,1999; Gnanadesikan, 1997; Jobson, 1992;Johnson y Wichern, 1992; Jolliffe, 1986;Anderson, 1984; Dillon y Goldstein, 1984;Seber, 1984; Karson, 1982; Mardia et al.,1979; Morrison, 1967). Se asume que lamatriz básica de datos está constituida por

variables cuantitativas, en el caso de compo-nentes principales, o por variables binarias,categóricas multiestado o cuantitativas en elcaso de coordenadas principales.

Numerosos trabajos de aplicación de es-tas técnicas pueden encontrarse en la litera-tura científica (Hartmann, 1988; Pimentel,1981; Thorpe, 1980; Crisci y López Armen-gol, 1983; Sneath y Sokal, 1973; Moss,1968). En la mayoría de ellos se aplican lastécnicas multivariadas sin tener en cuenta lanaturaleza mixta de los datos. La interpreta-ción de los ejes, en este caso, resulta pococlara ya que las correlaciones entre varia-bles numéricas y categóricas codificadas oentre los códigos numéricos de las variablescategóricas carecen de sentido.

Con respecto a la rotación en 180º de lasordenaciones de componentes principales ycoordenadas principales, Legendre y Legen-dre (1998) dicen lo siguiente; “las elecciones

Figura 13. Análisis de agrupamientos por ligamiento promedio realizado para la matriz decorrelaciones entre los espacios euclidianos derivados bidimensionales para todos los coeficien-tes, estandarizaciones y las dos técnicas en estudio. Referencias en tablas 1, 3, 4, 6, 7 y 8.

Page 22: Componentes principales y coordenadas principales: estudio

Lilloa 46 (1–2): 10–33, 2009 31

de signos de los autovectores son arbitrariasdurante la ejecución de los algoritmos decomputadora”. Por lo tanto, esta rotación noes una característica propia de la técnicasino del algoritmo incluido en el paquete conel que se está trabajando En el caso deNTSys la multiplicación de los dos primerosautovectores de coordenadas principales por(-1) generará ordenaciones con posicionessimilares a las de componentes principales.

En este trabajo se pretendió comparar lasordenaciones obtenidas usando el coeficien-te de Gower, apropiado para variables mix-tas, y evaluar la robustez de las técnicas decomponentes principales y coordenadas prin-cipales cuando se aplican coeficientes queno son apropiados para matrices con varia-bles de distintos tipos.

El uso de los diagramas de Shepard (Mc-Cune y Grace, 2002; Gnanadesikan, 1997;Everitt y Dunn, 1991; Legendre, 1998; Krus-kal, 1964) resultó muy útil para evaluar lasrelaciones entre espacios originales y deriva-dos, ya que permitieron observar el tipo, di-rección y magnitud de las distorsiones obte-nidas. Estas relaciones son lineales cuandose trabaja con variables cuantitativas sola-mente (Arce y Santillán, 2002; Arce, 2003)Es posible que la inclusión de variables nonuméricas codificadas haya producido lasrelaciones no lineales observadas entre losespacios original y derivados. Por este moti-vo cabe esperar mayores distorsiones al tra-bajar con datos mixtos que cuando sólo seutilizan variables cuantitativas. En los traba-jos mencionados con anterioridad no se hacemención a este efecto de no linealidad. Lainclusión en NTSys de estos gráficos resultamuy apropiada, como así también el cálculode correlación entre matrices.

La superposición de árboles de recorridomínimo a las ordenaciones (Gower y Ross,1969) resultó muy útil para detectar distor-siones en la representación de los puntos enel espacio de dimensión reducida. Bramardi(2000) también analiza en su trabajo la uti-lidad de esta herramienta de evaluación deordenaciones en este sentido.

El efecto de la autovalores negativos hasido tratado por Gower y Legendre (1986) y

resuelto computacionalmente por Legendre yAnderson (1998). No se encontró un efectoimportante de las correcciones porque el va-lor absoluto de los autovalores negativos re-sultó muy pequeño en relación a los prime-ros tres autovalores positivos. Pero se trabajóempíricamente con un solo conjunto de da-tos. Esto no necesariamente será siempre asípor lo que debería verificarse el efecto de lascorrecciones siempre que se obtienen auto-valores negativos

Se intentó presentar una metodologíaque incluyera varias técnicas para juzgarordenaciones. Se observó en los resultadosque el uso de la más usada (porcentaje devarianza explicada) no es suficiente por símisma y que incluso puede conducir a leelección de una ordenación inapropiada.

El uso del coeficiente de Gower debieraextenderse. Se ha visto empíricamente eneste trabajo, que su uso en la matriz de da-tos de Echinochloa resultó satisfactorio. Pi-mentel (1981) y Bramardi (2000) mencionantambién su efectividad en este tipo de matri-ces. Este coeficiente no se encuentra comouna alternativa disponible en el software deuso común. En NTSys no está incluido perose lo puede calcular de manera sencillausando las operaciones de matrices inclui-das en el módulo TRANSF. Recientemente hasido incluido en el paquete “cluster” de R (RDevelopment Core Team, 2009), mediante elprocedimiento DAISY (Kaufman y Rous-seeuw, 1990).

También se observó que el uso de com-ponentes principales y coordenadas principa-les, al ser empleados sin considerar la natu-raleza mixta de las variables, presentó ro-bustez, es decir, ordenaciones apropiadas.Pero en este caso se trabajó con una solamatriz de datos por lo que los resultadosobtenidos no deberían generalizarse paratoda matriz de datos mixtos.

CONCLUSIONES

En la matriz de datos estudiada se cono-cía la estructura de agrupamientos con ante-rioridad a su análisis estadístico, es decir, elmodelo taxonómico era conocido. La utili-

Page 23: Componentes principales y coordenadas principales: estudio

O. E. A. Arce et al.: Estudio comparativo basado en una aplicación a la taxonomía numérica32

zación de ambas técnicas, bajo diferentescondiciones de aplicación, permitió verificarsi el modelo taxonómico conocido podía serreproducido o no en espacios de dimensiónreducida. El número de grupos identificadosen algunos casos fue nulo, en otros fue elcorrecto y en unos pocos resultó menor queel número original. Esto indica que algunascondiciones de aplicación pueden llevar alinvestigador a obtener conclusiones taxonó-micas erróneas.

Excepto en los casos especiales de duali-dad mencionados, el análisis de componen-tes principales no tiene una relación directacon el de coordenadas principales.

El análisis de las dos técnicas mostró queambas son robustas, ya que en la mayoríade los casos produjeron resultados muy simi-lares y concordantes con el modelo taxonó-mico conocido.

La condición fundamental para obtenerordenaciones que reprodujeron el modelotaxonómico original fue la estandarizaciónde los datos y no la selección de coeficientesdeterminados.

No debiera utilizarse componentes princi-pales con datos de naturaleza mixta debido ala no linealidad que se genera entre los espa-cios original y derivado, que produce distor-siones en la representación bidimensional.

Se observó que coordenadas principalesfue capaz de forzar un modelo euclidiano auna matriz cualquiera de disimilaridades osimilaridades, lo que indicaría que se puedeaplicar a cualquier tipo de datos usandomedidas de di/similaridad apropiadas. Elcoeficiente de Gower surge como una alter-nativa interesante.

BIBLIOGRAFÍA

Anderson, T. 1984. An introduction to multivariatestatistical analysis. 3rd edition. New York, Wiley,752 pp.

Arce, O y M. Santillán. 2002. A comparative study oftwo ordination techniques based on simulatedmultivariate normal data. Biocell, 26 (1): 159.

Arce, O. 2003. Componentes principales y coordena-das principales: estudio comparativo con aplica-ciones a la taxonomía numérica. Tesis de Maes-tría en Estadística Aplicada. Tucumán, Facultad

de Ciencias Económicas, Universidad Nacional deTucumán, 149 pp.

Bramardi, S. 2000. Estrategias para el análisis dedatos en la caracterización de recursos fitoge-néticos. Tesis doctoral. Valencia, UniversidadPolitécnica, 390 pp.

Cailliez, F. 1983. The analytical solution of the additiveconstant problem. Psychometrika, 48: 305-308.

Crisci, J. y M. F. López Armengol. 1983. Introduccióna la teoría y práctica de la taxonomía numérica.Monografía Nº 26. Washington, Organización deEstados Americanos, 132 pp.

De La Sota, E. 1982. La taxonomía y la revolución enlas ciencias biológicas. Monografía Nº 3. Was-hington, Organización de Estados Americanos,86 pp.

De Marco, N. 2006. Echinochloa. En A. Molina y Z.R. de Agrasar (editores). Colección científica delINTA 23. INTA, Buenos Aires, pp. 493-510.

De Marco, N. 2002. Estudio sistemático y fitogeográ-fico de las especies del género Echinochloa(Poaceaea: Panicoideae: Paniceae) para la Argen-tina. Tesis doctoral. Tucumán, Facultad de Agro-nomía y Zootecnia, Universidad Nacional de Tu-cumán, 178 pp.

Dillon, W y M. Goldstein. 1984. Multivariate analysis.Methods and applications. New York, Wiley, 287 pp.

Everitt, B. y G. Dunn. 1991. Applied multivariate dataanalysis. London, Arnold, 304 pp.

Gnanadesikan, R. 1997. Methods for statistical dataanalysis of multivariate observations. 2 nd edi-tion. New York, Wiley, 353 pp.

Gower, J. 1966. Some distance properties of latentroots and vector methods used in multivariateanalysis. Biometrika, 53: 325-338.

Gower, J. 1971. A general coefficient of similarity andsome of its properties. Biometrics, 27: 857-74.

Gower, J. 1985. Measures of similarity, dissimilarityand distance. Encyclopedia of statistical sciences,5: 397-405.

Gower, J. y N. Digby. 1981. Expressing complex rela-tionships in two dimensions. En V. Barnett (edi-tor). Interpreting multivariate data . Wiley, UK,pp 83-118.

Gower, J. y P. Legendre. 1986. Metric and euclideanproperties of dissimilarity coefficients. Journal ofClassification, 3: 5-48.

Gower, J. y G. Ross. 1969. Minimum spanning treesand single linkage cluster analysis. Applied sta-tistics, 18: 54-64.

Hair, J., R. Anderson, R. Tatham y W. Black. 1999.Análisis multivariante. 5ª edición. Madrid, Pren-tice Hall Iberia, 799 pp.

Hartman, S. 1988. Evaluation of some alternativeprocedures used in numerical systematic. Syste-matic zoology, 37 (1): 1-18.

Jobson, J. 1992. Applied multivariate data analysis.Volume II: Categorical and multivariate methods.New York, Springer-Verlag, 768 pp.

Page 24: Componentes principales y coordenadas principales: estudio

Lilloa 46 (1–2): 10–33, 2009 33

Johnson, R y W. Wichern.1992. Applied multivariatestatistical analysis. 3rd edition. New Jersey,Prentice Hall, 642 pp.

Jolliffe, I. 1986. Principal component analysis. Heidel-berg, Springer-Verlag, 271 pp.

Karson, M. 1982. Multivariate statistical methods. Anintroduction. Iowa, Iowa State University Press,307 pp.

Kaufman, L y P. Rousseeuw. 1990. Finding groups indata. An introduction to cluster analysis. NewYork, Wiley-Interscience, 342 pp.

Kruskal, J. 1964. Multidimensional scaling by optimi-zing goodness of fit to a nonmetric hypothesis.Psychometrika, 29 (1): 1-27.

Legendre, P. y J. Anderson. 1998. Program DistPCoA.User’s manual. Montreal: Université de Montre-al, Département de Sciences Biologiques. http://www.bio.umontreal.ca/casgrain/en/telechar-ger/index.html#DistPCoA (consultado el 21 deoctubre de 2009).

Legendre, P. y L. Legendre. 1998. Numerical ecology.2nd Edition. Amsterdam, Elsevier, 853 pp.

Lingoes, J.C. 1971. Some boundary conditions for amonotone analysis of symmetric matrices. Psy-chometrika, 36: 195-203.

McCune, B y Grace, J. 2002. Analysis of ecologicalcommunities. Oregon, MJM, 300 pp.

Mardia, K., J. Kent y J. Bibby. 1979. Multivariateanalysis. London: Academic Press, 521 pp.

Morrison, D. 1967. Multivariate statistical methods.New York, McGraw Hill, 409 pp.

Moss, W. 1968. Experiments with various techniquesof numerical taxonomy. Systematic Zoology, 17(1): 31-47.

Peña, D. 2002. Análisis de datos multivariantes.Madrid, MacGraw Hill Interamericana de España,539 pp.

PimenteL, R. 1981. A comparative study of data andordination techniques based on a hybrid swarmof sand verbenas (Abronia Juss.). Systematiczoology, 30 (3): 250-267.

R Development Core Team. 2009. R: A language andenvironment for statistical computing. R Founda-tion for Statistical Computing, Vienna, Austria.ISBN 3-900051-07-0, URL http://www.R-project.org (consultado el 21 de octubre de2009).

Rohlf, F. 1972. And empirical comparison of threeordination techniques in numerical taxonomy.Systematic zoology, 21 (3): 271-280.

Rohlf, F. 1990. Numerical taxonomy system of multi-variate statistical programs. Version 1.8. NewYork: State University at Stony Brook.

Rohlf, F., 2009. Numerical taxonomy system of mul-tivariate statistical programs. Getting startedguide. Version 2.2. New York: State University atStony Brook, 43 pp.

Seber, G. 1984. Multivariate observations. New York,Wiley and Sons, 686 pp.

Sneath, P. y R. Sokal. 1973. Numerical taxonomy. Theprinciples and practice of numerical classifica-tion. San Francisco, Freeman, 573 pp.

Thorpe, R. 1980. A comparative study of ordinationtechniques in numerical taxonomy in relation toracial variation in the ringed snake Natrix natrix(L.). Biological journal of the Linnean Society, 13:7-40.

Zuloaga, F. O., E. G. Nicora, Z. E. Rúgolo de Agrasar,O. Morrone, J. Pensiero y A. M. Cialdel la.1994. Catálogo de la Familia Poaceae en laRepública Argentina. Monographs in SystematicBotany. Missouri Botanical Garden, 47: 1-178.