manual de introducción a los métodos factoriales y clasificación con

68
rsal Servei d’Estadística Universitat Autònoma de Barcelona Edificio D (Servei d’Informàtica) 08193 Bellaterra (Barcelona) Tel. +34 93 581 13 47 Fax +34 93 581 20 94 [email protected] www.uab.es/s-estadistica/ Manual de introducción a los métodos factoriales y clasificación con SPAD Mónica Bécue Bertaut Profesora titular Departamento Estadística e Investigación Operativa Universidad Politécnica de Catalunya Joan Valls i Marsal Asesor estadístico Servei d’Estadística UAB La vida es el arte de obtener conclusiones a partir de evidencias insuficientes (S. Butler)

Upload: hoangtruc

Post on 04-Feb-2017

230 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Manual de introducción a los métodos factoriales y clasificación con

rsal

Servei d’Estadística Universitat Autònoma de Barcelona

Edificio D (Servei d’Informàtica) 08193 Bellaterra (Barcelona)

Tel. +34 93 581 13 47 Fax +34 93 581 20 94 [email protected]

www.uab.es/s-estadistica/

Manual de introducción a los métodos factoriales y

clasificación con SPAD

Mónica Bécue Bertaut Profesora titular

Departamento Estadística e Investigación Operativa Universidad Politécnica de Catalunya

Joan Valls i Marsal Asesor estadístico

Servei d’Estadística UAB

La vida es el arte de obtener conclusiones a partir de evidencias insuficientes (S. Butler)

Page 2: Manual de introducción a los métodos factoriales y clasificación con

Índice

1 Prólogo................................................................................................ 3

2 Manejo de bases de datos con SPAD ................................................. 4

2.1 El archivo BASE de SPAD ..................................................................................... 4 2.2 Creación de un archivo BASE................................................................................. 9 2.3 Importación de archivos de texto........................................................................... 11 2.4 Importación de archivos de SAS ........................................................................... 13 2.5 Exportación de ficheros BASE.............................................................................. 14

3 Construcción de análisis estadísticos con SPAD: la filière ....... 15

3.1 Creación de una filière........................................................................................... 15 3.2 Abrir una filière existente............................................................................... 23 3.3 Construcciones complejas de filières .................................................................... 23 3.4 Los métodos........................................................................................................... 24

4 Caracterización de variables............................................................. 27

4.1 Caracterización de una variable cualitativa ........................................................... 27 4.2 Caracterización de una variable continua.............................................................. 32

5 Análisis factoriales simples............................................................... 36

5.1 Análisis de componentes principales..................................................................... 36 5.2 Análisis de correspondencias simples ................................................................... 46 5.3 Análisis de correspondencias múltiples................................................................. 50

6 Métodos de clasificación .................................................................. 55

7 Casos propuestos.............................................................................. 63

7.1 Estudio de la relación calidad-precio para 35 marcas de whisky (ACP)............... 63 7.2 Opinión de los estudiantes estadounidenses sobre la guerra del Vietnam (ACS) . 65 7.3 Análisis cualitativo de razas de perros (ACM)...................................................... 66

8 Bibliografía ....................................................................................... 68

Análisis factoriales con SPAD 2

Page 3: Manual de introducción a los métodos factoriales y clasificación con

1 Prólogo Desde hace una treintena de años, los métodos de análisis multivariante de datos han probado su eficacia en el estudio de grandes masas de información compleja. Se trata de métodos llamados multidimensionales, por oposición a los métodos de estadística descriptiva que tratan únicamente una o dos variables. Actualmente, los métodos factoriales se enmarcan en las técnicas de Data Mining (o minería de datos). Éstos permiten confrontar numerosas informaciones, lo cuál es más rico que análisis separados. Las representaciones simplificadas de grandes tablas de datos se han manifestado como un instrumento de síntesis notable, debido a su capacidad para reducir la dimensionalidad. Permiten extraer las tendencias más destacadas, jerarquizarlas y eliminar los efectos marginales o puntuales que perturban la percepción global de los hechos recogidos en los datos. El desarrollo de algoritmos de clasificación resulta ser en muchas ocasiones un complemento ideal a los métodos factoriales y permiten describir tipologías de individuos según las variables en estudio. Estos métodos nacidos en la universidad se han aplicado a todo tipo de dominios científicos como la ecología, la lingüística, la psicometría, el análisis de mercados, la arqueología, ... También han experimentado un gran éxito en ramas de la banca y seguros donde deben analizarse grandes ficheros de datos. SPAD (Système Portable pour l’Analyse de Données), permite implementar una estrategia de análisis adecuada al tratamiento exploratorio multivariante de grandes tablas de datos. Su concepción es original y adaptada para un proceso natural de aprendizaje a partir de los datos (data learning). Este sencillo manual pretende ser una herramienta para aquellas personas con conocimientos de estadística multivariante que quieran iniciarse al tratamiento de los datos con SPAD. El manual está divido en diversos apartados. En los primeros, se centra el interés en el manejo de bases de datos, para pasar luego a la práctica de los análisis factoriales y la obtención de gráficos. Es por tanto aconsejable realizar una lectura lineal. Se ha utilizado la versión 4.5 de SPAD.

Análisis factoriales con SPAD 3

Page 4: Manual de introducción a los métodos factoriales y clasificación con

2 Manejo de bases de datos con SPAD SPAD posee diferentes herramientas para el manejo de datos. En general, trabaja con un tipo de ficheros de formato definido, para los que se dispone de un editor. Igualmente ofrece opciones para importar / exportar bases con otros formatos: ficheros de textos, ficheros de tablas de SAS, ficheros SPSS y OBDC. Todas estas herramientas se encuentran en las opciones del menú Base de la ventana principal de SPAD.

2.1 El archivo BASE de SPAD El archivo BASE, con extensión .sba, es el archivo predefinido de trabajo de SPAD donde se almacenan los datos y los meta datos. SPAD incorpora un editor de este tipo de ficheros, llamado EDIBASE. Todos los análisis de datos requerirán un fichero BASE. SPAD ofrece la posibilidad de abrir / crear / modificar este tipo de archivos. Ejemplo 1. SPAD dispone de un conjunto de archivos BASE que se instalan en el fichero por defecto “...\Archivos de programa\Cisia\Spad\Bases”. Para abrirlos, debemos seleccionar el comando Editer Base del menú Base.

Análisis factoriales con SPAD 4

Page 5: Manual de introducción a los métodos factoriales y clasificación con

Podemos seleccionar el archivo BASE deseado. Seleccionaremos el archivo Enquete.sba.

Análisis factoriales con SPAD 5

Page 6: Manual de introducción a los métodos factoriales y clasificación con

Esta opción nos abre una nueva ventana (EDIBASE), con la que podemos editar el archivo.

Esta ventana se organiza en cuatro subventanas, accesibles por menú vía Fenêtre o bien con los iconos de la barra de herramientas: • Ventana Entête ( ). Datos generales sobre la base de datos. Nombre, número de

individuos y variables, ... • Ventana Variables ( ). Etiquetas y tipo de las variables de la base. • Ventana Modalités( ). Etiquetas de las modalidades de las variables de tipo

nominal. • Ventana Valeurs ( ). Valores de las variables para cada uno de los individuos. La ventana que aparece por defecto es la ventana Valeurs, en forma de matriz, y se puede editar directamente. Destacamos que las dos primeras columnas corresponden a los identificadores de individuos y a sus etiquetas (Libellées). Las opciones del menú Edition permiten añadir / suprimir individuos, entre otras. Los valores faltantes (missings) se indican con una ausencia de valor.

Análisis factoriales con SPAD 6

Page 7: Manual de introducción a los métodos factoriales y clasificación con

La ventana Variables contiene cinco columnas: • Ident. Se registra el identificador corto, limitado a cuatro caracteres. • Libel. Contiene la etiqueta de la variable. • Type. Tipo de la variable. C si se trata de variables numéricas continuas, N si se trata

de variables numéricas nominales o cualitativas y T si se trata de variable textuales (provenientes, por ejemplo, de respuestas abiertas).

• Min, Max. Indica el rango de variación de las variables. En el caso de variables nominales, SPAD impone la restricción que las categorías tomen los valores 1, 2, ..., N para variables con N categorías. En el caso de variables textuales, presenta unos valores nulos.

Si seleccionamos la variable Statut matrimonial y cliqueamos sobre el icono Modalités aparecerá la pantalla con las etiquetas para cada categoría de la variables. Esta ventana es también editable y se nos presentan dos columnas correspondientes a las etiquetas cortas (4 letras) y largas. El hecho de disponer de dos tamaños de etiquetas es útil para un uso posterior en la parte gráfica del programa.

Análisis factoriales con SPAD 7

Page 8: Manual de introducción a los métodos factoriales y clasificación con

En el comando Enregistrer sous del menú Fichier podemos guardar el fichero con otro nombre y también exportarlo a formato SPSS.

Análisis factoriales con SPAD 8

Page 9: Manual de introducción a los métodos factoriales y clasificación con

2.2 Creación de un archivo BASE Para crear un nuevo archivo BASE debemos seleccionar la opción Nouvelle Base del menú Base. Esta acción nos abrirá una nueva base vacía.

Ejemplo 2. Crearemos una base con 10 individuos con los datos siguientes:

Id Etiqueta Sexo Salario anual ¿Qué es lo que más le gustó del viaje? 1 Juan Hombre 18.000 La gente, el ambiente de la ciudad 2 Silvia Mujer 15.000 La cocina tradicional 3 José Hombre 25.000 La cultura, el ambiente cultural 4 Pedro Hombre 17.000 Las noches y el ocio. 5 Ana Mujer 19.000 Las comodidades del transporte público. 6 David Hombre 30.000 La gente. Son muy agradables. 7 Cristina Mujer 22.000 Cultura, comida, museos,... 8 Marta Mujer 10.000 Disfrutar de la ciudad, con todos sus

equipamientos culturales y turísticos 9 Vanesa Mujer 13.000 Ir al teatro. 10 Carlos Hombre 21.000 El buen ambiente.

Primeramente debemos definir las variables y su tipo. Por defecto ya viene definido un identificador de individuo y su etiqueta. Debemos por tanto añadir tres nuevas variables: una nominal (N), otra continua (C) y otra textual (T). Debemos también definir su rango y las etiquetas de las modalidades de la variable nominal.

Análisis factoriales con SPAD 9

Page 10: Manual de introducción a los métodos factoriales y clasificación con

Para introducir los valores, debemos cliquear sobre el icono Valeurs. Observaremos que la matriz de valores está vacía. Debemos ejecutar la opción Ajuter N fois del menú Edition, y indicar que queremos añadir 10 individuos.

Ya podemos introducir los datos. El editor de bases de SPAD permite realizar las operaciones Copiar / Cortar / Pegar usuales en Windows. Así pues, puede interaccionar con otras aplicaciones que contengan datos, como WORD, EXCEL, SPSS,...

Una vez los hayamos introducido debemos guardar la base, utilizando la opción Enregistrer del menú Fichier y debemos indicarle el nombre y el directorio donde se guardará el fichero de datos. Supongamos que guardamos el fichero con el nombre Prueba.sba.

Análisis factoriales con SPAD 10

Page 11: Manual de introducción a los métodos factoriales y clasificación con

2.3 Importación de archivos de texto Para importar archivos ASCII que contengan datos a SPAD debemos seleccionar la opción Importation fichier Ascii dentro de Importer del menú Base.

Supongamos que disponemos de un archivo ASCII (.txt o .dat) que contiene los datos del ejemplo 2, donde los valores de las variables están separados por un espacio tabulador. Le indicaremos a SPAD dónde se encuentra este archivo. Si tuviésemos nuestros datos en un archivo EXCEL, bastaría con guardarlo en formato texto para poder luego realizar la importación desde SPAD. Aconsejamos que siempre se trabaje con archivos de texto separados por tabuladores.

Análisis factoriales con SPAD 11

Page 12: Manual de introducción a los métodos factoriales y clasificación con

A continuación, se nos presenta una pantalla donde debemos indicar de qué tipo es el archivo de texto. En nuestro caso, debemos indicarle que es de formato delimitado, separado por tabuladores. En el caso que se encontrasen las etiquetas de las variables en la primera línea, deberíamos indicarlo. En nuestro fichero no es necesario. Si el fichero de texto fuera de formato fijo deberíamos indicarle entre qué columnas se encuentran las variables. Existen otras opciones y detalles, como por ejemplo que un individuo pueda representar más de una línea. Para importar el archivo prueba.txt debemos parametrizar la pantalla como se muestra a continuación.

Cliqueamos sobre el botón Suivant y nos aparece una nueva ventana donde debemos indicar de qué tipo son las variables

Análisis factoriales con SPAD 12

Page 13: Manual de introducción a los métodos factoriales y clasificación con

Para crear el archivo SPAD debemos cliquear sobre el botón Executer y indicar el nombre del nuevo archivo. Sólo nos quedará comprobar que la importación se ha realizado correctamente, abriendo el nuevo archivo con EDIBASE, y indicar las etiquetas de las modalidades de la variable nominal sexo. 2.4 Importación de archivos de SAS SPAD tiene una utilidad que permite importar datos procedentes de una tabla predefinida en formato de SAS, con extensión .xpt. El procedimiento es similar a de la importación a partir de un archivo ASCII. Debemos elegir la opción Importation SAS de Importer en el menú Base.

Se abrirá una pantalla donde tendremos que especificar el tipo de cada una de las variables.

Análisis factoriales con SPAD 13

Page 14: Manual de introducción a los métodos factoriales y clasificación con

2.5 Exportación de ficheros BASE SAS permite exportar ficheros BASE (.sba) a diferentes formatos de archivo: • Formato SPSS. Debemos editar el archivo BASE y, mediante la opción Enregistrer sous, señalar que deseamos guardar el fichero en formato SPSS (.sav).

• Formato SAS. Debemos escoger la opción Exportation SAS de Exporter en el menú Base e indicar a SPAD qué archivo se desea exportar a formato tabla de SAS (.xpt).

• Formato texto. Debemos escoger la opción Exportation texte de Exporter en el menú Base.

Análisis factoriales con SPAD 14

Page 15: Manual de introducción a los métodos factoriales y clasificación con

3 Construcción de análisis estadísticos con SPAD: la filière

La filière es el objeto básico para realizar análisis con SPAD. En ella, se indican el archivo BASE que se utiliza y se parametrizan los análisis. Toda la información y resultados se puede guardar en una filière, mediante un archivo con extensión .fil. En una filière se definen en un primer momento, de forma encadenada y secuencial, los análisis que se realizarán sobre los datos y en un segundo momento se ejecuta la filière, produciendo los resultados. Tanto las parametrizaciones como los resultados se presentan como iconos. 3.1 Creación de una filière Para crear una nueva filière debemos ejecutar la opción Nouvelle filière del menú Filière.

Por defecto, al abrir SPAD ya nos aparecerá una filière vacía, con el siguiente aspecto:

El primer paso que se debe realizar es indicar con qué archivo BASE se desea trabajar. Para ello se puede ejecutar la opción Sélectionner Base del menú Filière o bien

Análisis factoriales con SPAD 15

Page 16: Manual de introducción a los métodos factoriales y clasificación con

hacer un doble clic sobre el icono BASE. Nos aparecerá una nueva pantalla donde debemos indicar el directorio del archivo de datos.

Ejemplo 3. Retomemos los datos del archivo Enquete.sba. Abriremos una nueva filière y seleccionaremos este archivo. La filière debería tener el siguiente aspecto:

Una vez tenemos la filière referida a un archivo de datos, ya podemos empezar a encadenar análisis, mediante los métodos (méthodes). Todos los métodos disponibles los encontramos en la ventana Méthodes, agrupados según su tipo.

Análisis factoriales con SPAD 16

Page 17: Manual de introducción a los métodos factoriales y clasificación con

Destacaremos los siguientes grupos de métodos: • Description statistique. Realizan análisis estadísticos descriptivos. • Analyses factorielles. Métodos para realizar análisis factoriales: análisis de

componentes principales, correspondencias simples y múltiples, ... • Classification. Métodos para ejecutar algoritmos de clasificación. Para introducir un nuevo método a la filière basta con seleccionar la opción Insérer Méthode del menú Méthode o bien cliquear con el botón de la derecha en el icono BASE, y seleccionar la misma opción en el submenú que aparece.

Esta acción nos insertará un nuevo icono vacío, donde deberemos indicar el método que deseemos ejecutar.

Para indicar el método debemos arrastrar el icono desde la ventana Méthodes. Supongamos que queremos realizar histogramas y diagramas de barras de las variables de la base. El método adecuado es Stats. Procedemos arrastrar el icono hasta el icono vacío.

Análisis factoriales con SPAD 17

Page 18: Manual de introducción a los métodos factoriales y clasificación con

Esta acción definirá un método dentro de la filière con este aspecto:

Para parametrizar el método basta con realizar un doble clic sobre el icono Stats. Se nos abrirá una ventana de parametrización donde debemos indicarle las variables continuas y categóricas que queremos analizar. En la subventana Tris-à-plat (diagramas de barras), indicaremos que conjunto de variables categóricas queremos realizar el diagrama. Podemos seleccionar las variables una por una o bien todas a la vez. Supongamos que elegimos las tres variables tal como sigue:

Análisis factoriales con SPAD 18

Page 19: Manual de introducción a los métodos factoriales y clasificación con

Realizamos lo mismo con las variables continuas, en la subventana Histogrammes- Dicrétisation.

Análisis factoriales con SPAD 19

Page 20: Manual de introducción a los métodos factoriales y clasificación con

Opcionalmente SPAD permite discretizar las variables continuas. Para ello deberíamos cambiar la opción Pour histogrammes por la opción Pour discretisation en Sélection des variables. En las otras subventanas podríamos definir con que subgrupo de individuos desearíamos realizara los análisis (Individus), establecer una variable de ponderación (Pondération), o segmentar el archivo de datos según variables categóricas (Tris édités par modalités). En nuestro ejemplo, los parámetros por defecto serán suficientes. Por tanto, cliqueraremos sobre el botón OK. De esta forma, la filière ya estará parametrizada y, por tanto, lista para ejecutar.

Análisis factoriales con SPAD 20

Page 21: Manual de introducción a los métodos factoriales y clasificación con

Antes de ejecutar la filière debemos guardarla sobre un archivo .fil. Para ello, debemos seleccionar la opción Sauvegarder Filière del menú Filière. Opcionalmente, podemos dar a la filière una etiqueta larga.

Una vez guardada, ya podemos ejecutar la filière, seleccionando la opción Exécuter filière del menú Filière.

Análisis factoriales con SPAD 21

Page 22: Manual de introducción a los métodos factoriales y clasificación con

Después de la ejecución nos aparecerán los iconos de resultados, a la derecha de los métodos. Nuestra filière tendrá el aspecto siguiente:

Podemos realizar un doble click sobre cada uno de los iconos. Los símbolos de los iconos nos indicarán el tipo de los resultados:

• Icono Listage. Proporciona los resultados estadísticos en forma de listado, en formato texto, mediante un navegador de resultados.

• Icono Graphiques. Nos proporciona una interficie interactiva para la edición de gráficos. Permite realizar una gama amplia de gráficos: dispersión, diagramas de barras, boxplots, realizar rotaciones, inserir una línea de regresión, ...

• Icono Excel. Crea una hoja de EXCEL con los datos del análisis. Resulta muy útil en muchas ocasiones, por ejemplo, cuando deseamos hacer gráficos en formato EXCEL.

Análisis factoriales con SPAD 22

Page 23: Manual de introducción a los métodos factoriales y clasificación con

3.2 Abrir una filière existente Para abrir una filière existente basta con ejecutar la opción Ouvrir filière del menú Filière e indicar dónde se encuentra el archivo .fil.

Tanto los iconos de resultado como las parametrizaciones de los métodos no se pierden y son de immediato editables. Cabe destacar que SPAD utiliza muchos ficheros intermedios, muchos de los cuáles van ligados a la filière. Es recomendable crear un directorio propio para cada análisis o bien para cada archivo BASE. No es recomendable copiar la filière a otro directorio, pues daría problemas en la localización de ficheros. 3.3 Construcciones complejas de filières En el apartado 3.1 hemos creado una filière sencilla, con un único método. En la práctica, las filières son mucho más complejas, pudiéndose encadenar un número ilimitado de métodos. Cabe destacar que el modo de encadenar los análisis no es indiferente. Hay análisis que se alimentan de análisis anteriores. Esto provoca que ciertos encadenamientos sean imposibles de ejecutar. El caso de los análisis factoriales es un ejemplo. Primero debe realizarse el análisis factorial para luego aplicar la clasificación sobre los ejes factoriales creados. Un mismo método puede ser encadenado tantas veces consecutivas como se desee. En el caso de disponer de bases de datos complejos, es aconsejable realizar diversas filières, separando los análisis. SPAD dispone de una opción para crear filières predefinidas, es decir, encaradas a realizar un análisis clásico. Para crear una nueva filière predefinida debe ejecutarse la opción Filière prédéfinie del menú Filière.

Análisis factoriales con SPAD 23

Page 24: Manual de introducción a los métodos factoriales y clasificación con

Nos aparecerá una pantalla donde debemos seleccionar el análisis deseado.

Si escogemos la filière seleccionada en la figura anterior realizaríamos un análisis idéntico al del ejemplo 3. Observamos que hay muchas opciones para escoger la filière predefinida. Más adelante entraremos en detalle. 3.4 Los métodos Como hemos visto, para definir un análisis necesitamos encadenar un conjunto de métodos dentro de una filière. SPAD tiene definidos muchos métodos agrupados según el tipo de análisis de realizan, constituyendo módulos. Destacamos los métodos siguientes: • Módulo estadística descriptiva

STATS. Tablas de frecuencias y gráficos descriptivos (histogramas, diagramas de barra, diagramas de dispersión, boxplots, ...)

DEMOD. Caracterización de una variable cualitativa. Realiza comparaciones múltiples entre medias y proporciones con el resto de variables para observar las relaciones más evidentes.

DESCO. Caracterización de una variable continua. Realiza comparaciones múltiples entre proporciones y calcula correlaciones para observar las relaciones más evidentes.

Análisis factoriales con SPAD 24

Page 25: Manual de introducción a los métodos factoriales y clasificación con

TABLE. Construcción de tablas cruzadas con los estadísticos usuales, recuentos, medias, desviaciones, ...

BIVAR. Analiza pares de variables continuas, su correlación y las posibles relaciones del espacio bidimensional creado con el resto de variables.

MSMOD. Caracterización de una variable nominal siguiendo un criterio de recubrimiento.

XLSTAT. Creación de un archivo en formato EXCEL que contiene los datos de la base SPAD y carga del paquete de macros estadísticas XLSTAT, que realiza diversos análisis estadísticos, siempre con macros.

• Módulo de análisis factoriales

COPRI. Análisis de componentes principales.

CORBI. Análisis de correspondencias simples (o binarias).

CORMU. Análisis de correspondencias múltiples.

COREM. Análisis de correspondencias múltiples con la opción de escoger las modalidades activas en el análisis.

CORCO. Analiza de correspondencias múltiples condicionales.

TABLE+COPRI. Análisis de componentes principales partiendo de una tabla resumida, por ejemplo, de una tabla de medias.

TABLE+CORBI. Análisis de correspondencias múltiples partiendo de una tabla de contingencia resumida.

DEFAC. Descripción de los ejes factoriales.

TYTRA1. Análisis de correspondencias múltiples con una variable tiempo.

• Módulo de métodos de clasificación

RECIP-SEMIS. Partición de los individuos en clases. Árbol de agregación.

PARTI-DECLA. Partición de los individuos en clases. Algoritmo de k-medias.

CLASS-MINER. Caracterización de las clases de individuos.

MSCLA. Caracterización de las clases de individuos

Análisis factoriales con SPAD 25

Page 26: Manual de introducción a los métodos factoriales y clasificación con

TYTRA2. Partición de los individuos (partiendo de TYTRA1).

• Módulo de análisis estadístico de datos textuales

MOTS. Creación del glosario de palabras.

SEGME. Creación del glosario de segmentos repetidos.

VOSPEC. Formas léxicas características según grupos de individuos.

TALEX. Creación de tablas de contingencia léxicas.

CORBIT. Análisis de correspondencias simples en un tabla de contingencia léxica.

TEXNU. Creación de un archivo BASE conteniendo las palabras y la frecuencia para cada uno de los individuos.

CORDA. Concordancias de formas léxicas.

• Módulo de exportación de datos

ESCAL. Creación de un archivo BASE conteniendo ejes factoriales y/o particiones de individuos.

EXDON. Creación de un fichero de texto conteniendo los datos originales.

EXGUS. Creación de un fichero de texto conteniendo las coordenadas factoriales.

• Otros módulos • Segmentación. Métodos para ajustar árboles de regresión y clasificación. • Decisión – Modelos. Métodos para ajustar modelos de regresión lineales, log-

lineales, lineales generales,... • Tablas múltiples. Métodos para construir tablas múltiples y realizar análisis

factoriales múltiples. • Amado. Métodos que interaccionan con el software AMADO.

Análisis factoriales con SPAD 26

Page 27: Manual de introducción a los métodos factoriales y clasificación con

4 Caracterización de variables SPAD ofrece un método original y poco conocido para caracterizar una variable respuesta a partir de un conjunto de variables explicativas. Este método se diferencia cuando la variable respuesta es categórica o bien continua. En cualquier caso se aplica un algoritmo que realiza comparaciones múltiples entre medias y / o proporciones para hallar las variables explicativas relacionadas. Este método permite, por ejemplo que sepamos que características diferencian a los clientes “buenos” de los clientes “malos”, tomando como explicativas la edad, el nivel de estudios, los años en la entidad bancaria,... En el caso que la variable sea continua, nos permitiría hallar las diferencias entre individuos con valores altos y valores bajos de la variable respuesta. Es un método que se enmarca claramente entre las técnicas más recientes de Minería de datos (Data Mining). Pueden darse los dos casos siguientes: • Caracterización de una categoría de una variable categórica respuesta a partir de las

categorías (A, B, C, ...) de una variable explicativa. La categoría de la variable respuesta define implícitamente un subgrupo de individuos del conjunto global de individuos. El algoritmo realiza pruebas estadísticas para comparar las proporciones de individuos que presentan las categorías A, B, C, ... dentro del subgrupo respecto las proporciones en la muestra global. En el caso que se desee caracterizar el subgrupo de individuos a partir de una variable explicativa continua se realiza un test de comparación de medias entre la media del subgrupo respecto la media global.

• Caracterización de una variable continua respuesta a partir de las categorías (A, B,

C...) de una variable explicativa. Se procede a realizar pruebas de comparaciones múltiples entre las medias dentro de los individuos que forman las categorías con la media global de la variable continua respuesta. En el caso que se desee caracterizar la variable continua a partir de variables continuas explicativas se procede a calcular las correlaciones bivariadas.

SPAD ordena las características influyentes por el p-valor asociado a la prueba estadística y además incorpora un nuevo elemento, el valor-test. Este estadístico se distribuye según una normal estandarizada, por lo que cuando sea superior a 2 o bien inferior a –2 se considerará que una característica es influyente, con un nivel de significación asociado de 0,05. 4.1 Caracterización de una variable cualitativa Ejemplo 4. En el archivo de datos Enquete.sba, se desea observar qué características diferencian a hombres y mujeres, a partir del resto de variables presentes en la base de datos. En primer lugar, debemos crear una nueva filière, indicar el archivo BASE y encadenar el método DEMOD.

Análisis factoriales con SPAD 27

Page 28: Manual de introducción a los métodos factoriales y clasificación con

Realizando un doble clic sobre el icono DEMOD parametrizaremos el método. Debemos indicar como variable nominal para caracterizar la variable Sexo, tal como sigue:

El resto de variables deben ser consideradas como variables nominales caracterizantes o

bien continuas caracterizantes. Para ello podemos utilizar los botones .

Análisis factoriales con SPAD 28

Page 29: Manual de introducción a los métodos factoriales y clasificación con

Análisis factoriales con SPAD 29

Page 30: Manual de introducción a los métodos factoriales y clasificación con

En la subventana Paramètres, podemos indicar algunos detalles sobre la caracterización, como por ejemplo, de que modo van a listarse las variables características, cuántas van a listarse y con qué criterio. Si ejecutamos la filière, nos aparecerá un icono de resultado tipo listado:

En él encontraremos los resultados siguientes: • Caracterización del sexo según las variables categóricas CARACTERISATION PAR LES MODALITES DES CLASSES OU MODALITES DE Sexe de l'enquêté(e) masculin ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 43.81 masculin Sex1 138 20.45 0.000 100.00 100.00 43.81 masculin Sexe de l'enquêté(e) Sex1 138 5.71 0.000 61.54 63.77 45.40 oui, plein temps Exercez-vous en ce moment une activité professionnelle Trv1 143 4.40 0.000 55.23 68.84 54.60 actif Situation actuelle de la personne interrogée Sit1 172 4.37 0.000 56.41 63.77 49.52 non Avez-vous été au chômage ces douze derniers mois ? Chm2 156 3.69 0.000 59.79 42.03 30.79 non Avez-vous des conflits travail - vie personnelle Cnf2 97 3.66 0.000 48.30 92.75 84.13 non Avez-vous souffert récemment d'un état dépressif Dpr2 265 3.51 0.000 53.75 62.32 50.79 non Avez-vous souffert récemment de nervosité Nrf2 160 3.25 0.001 64.29 26.09 17.78 cep et cap Niveau d'études de l'enquêté(e) Dip3 56 3.06 0.001 50.50 73.19 63.49 non Avez-vous souffert récemment de maux de tête Tet2 200 2.70 0.003 57.89 31.88 24.13 assez souvent Regardez-vous la télévision ? Tél2 76 2.58 0.005 51.66 56.52 47.94 pas du tout d'accord Les gens comme moi se sentent souvent seuls Seu4 151 -2.42 0.008 34.23 27.54 35.24 non Exercez-vous en ce moment une activité professionnelle Trv3 111 -2.77 0.003 0.00 0.00 3.17 pas du tout Etes-vous satisfait de votre état de santé Snt4 10 -3.06 0.001 32.17 26.81 36.51 oui Avez-vous souffert récemment de maux de tête Tet1 115 -3.35 0.000 15.63 3.62 10.16 n'a jamais travaillé Exercez-vous en ce moment une activité professionnelle Trv4 32 -3.51 0.000 33.55 37.68 49.21 oui Avez-vous souffert récemment de nervosité Nrf1 155 -3.66 0.000 20.00 7.25 15.87 oui Avez-vous souffert récemment d'un état dépressif Dpr1 50 -4.24 0.000 0.00 0.00 6.03 veuf(ve) Statut matrimonial Mat5 19 -4.30 0.000 30.28 31.16 45.08 *Reponse manquante* Avez-vous des conflits travail - vie personnelle 19_ 142 -4.30 0.000 30.28 31.16 45.08 *Reponse manquante* Avez-vous été au chômage ces douze derniers mois ? 20_ 142 -7.87 0.000 0.00 0.00 16.51 ménagère s.prof. Situation actuelle de la personne interrogée Sit3 52 -20.45 0.000 0.00 0.00 56.19 féminin Sexe de l'enquêté(e) Sex2 177 ---------------------------------------------------------------------------------------------------------------------------------- féminin ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 56.19 féminin Sex2 177 20.45 0.000 100.00 100.00 56.19 féminin Sexe de l'enquêté(e) Sex2 177 7.87 0.000 100.00 29.38 16.51 ménagère s.prof. Situation actuelle de la personne interrogée Sit3 52 4.30 0.000 69.72 55.93 45.08 *Reponse manquante* Avez-vous des conflits travail - vie personnelle 19_ 142 4.30 0.000 69.72 55.93 45.08 *Reponse manquante* Avez-vous été au chômage ces douze derniers mois ? 20_ 142 4.24 0.000 100.00 10.73 6.03 veuf(ve) Statut matrimonial Mat5 19 3.66 0.000 80.00 22.60 15.87 oui Avez-vous souffert récemment d'un état dépressif Dpr1 50 3.51 0.000 66.45 58.19 49.21 oui Avez-vous souffert récemment de nervosité Nrf1 155 3.35 0.000 84.38 15.25 10.16 n'a jamais travaillé Exercez-vous en ce moment une activité professionnelle Trv4 32 3.06 0.001 67.83 44.07 36.51 oui Avez-vous souffert récemment de maux de tête Tet1 115 2.77 0.003 100.00 5.65 3.17 pas du tout Etes-vous satisfait de votre état de santé Snt4 10 2.42 0.008 65.77 41.24 35.24 non Exercez-vous en ce moment une activité professionnelle Trv3 111 -2.58 0.005 48.34 41.24 47.94 pas du tout d'accord Les gens comme moi se sentent souvent seuls Seu4 151 -2.70 0.003 42.11 18.08 24.13 assez souvent Regardez-vous la télévision ? Tél2 76 -3.06 0.001 49.50 55.93 63.49 non Avez-vous souffert récemment de maux de tête Tet2 200 -3.25 0.001 35.71 11.30 17.78 cep et cap Niveau d'études de l'enquêté(e) Dip3 56 -3.51 0.000 46.25 41.81 50.79 non Avez-vous souffert récemment de nervosité Nrf2 160 -3.66 0.000 51.70 77.40 84.13 non Avez-vous souffert récemment d'un état dépressif Dpr2 265 -3.69 0.000 40.21 22.03 30.79 non Avez-vous des conflits travail - vie personnelle Cnf2 97 -4.37 0.000 43.59 38.42 49.52 non Avez-vous été au chômage ces douze derniers mois ? Chm2 156 -4.40 0.000 44.77 43.50 54.60 actif Situation actuelle de la personne interrogée Sit1 172 -5.71 0.000 38.46 31.07 45.40 oui, plein temps Exercez-vous en ce moment une activité professionnelle Trv1 143 -20.45 0.000 0.00 0.00 43.81 masculin Sexe de l'enquêté(e) Sex1 138 ----------------------------------------------------------------------------------------------------------------------------------

Análisis factoriales con SPAD 30

Page 31: Manual de introducción a los métodos factoriales y clasificación con

• Caracterización del sexo según las variables continuas CARACTERISATION PAR LES CONTINUES DES CLASSES OU MODALITES DE Sexe de l'enquêté(e) masculin +--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+ | V.TEST | PROBA | MOYENNES | ECARTS TYPES | VARIABLES CARACTERISTIQUES | | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE IDEN | +--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+ | masculin ( POIDS = 138.00 EFFECTIF = 138 ) Sex1 | | | | 6.69 | 0.000 | 6533.19 4408.55 | 5486.12 4575.34 | 51.Salaire mens. de l'enquêté Salr | | | | | | | | -2.33 | 0.010 | 6.49 6.65 | 1.32 1.06 | 41.Famille, enfants : importance accordée Fami | +--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+ féminin +--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+ | V.TEST | PROBA | MOYENNES | ECARTS TYPES | VARIABLES CARACTERISTIQUES | | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE IDEN | +--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+ | féminin ( POIDS = 177.00 EFFECTIF = 177 ) Sex2 | | | | 2.33 | 0.010 | 6.77 6.65 | 0.78 1.06 | 41.Famille, enfants : importance accordée Fami | | | | | | | | -6.69 | 0.000 | 2751.33 4408.55 | 2742.02 4575.34 | 51.Salaire mens. de l'enquêté Salr | +

--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+

Mediante los resultados obtenidos, podríamos concluir lo siguiente: Los hombres presentan mayor frecuencia de situación laboral en activo, trabajando a tiempo completo, y su frecuencia de haber estado en el paro, sufrido una depresión, conflictos de trabajo o nerviosismo es menor que el de las mujeres, que presentan mayor desempleo y mayores niveles de depresión, conflictos, ... Se observa también que los hombres presentan un salario superior al de las mujeres y por otro lado, las mujeres atorgan mayor importancia a la familia y niños. Obviamente, se podrían entrar más en detalle sobre los porcentajes implicados en cada caso, pero muchas veces podemos conformaremos con hallar los perfiles generales. Las columnas presentadas en las tablas representan: • MODALITES CARACTERISTIQUES Característica que resulta ser significativa. • DES VARIABLES Variable nominal asociada a la característica. • GLOBAL Porcentaje de individuos en la muestra que presentan la característica • MOD/CLA Porcentaje de individuos de la submuestra definida por el sexo (hombres o

mujeres) que presentan la característica. • CLA/MOD Porcentaje de individuos de la submuestra definida por la característica

explicativa que están presentes en la submuestra definida por el sexo. • PROBA P-valor asociado a la prueba estadística. • V.TEST Valor test asociado a la prueba estadística. Por ejemplo, observamos que en general un 45,40% de los individuos encuestados trabajan a tiempo completo. En el caso de los hombres este porcentaje aumenta al 63,77 %, y observamos que el 61,54% de las personas que trabajan a tiempo completo son hombres. En el caso de las tablas para variables continuas características, las columnas representan: • VARIABLES CARACTERISTIQUES Variable continua que resulta ser significativa. • MOYENNES Media general (para todos los encuestados) y media definida por el sexo

(en los hombres o mujeres) • ECARTS TYPES Desviación típica general (para todos los encuestados) y desviación

típica definida por el sexo (en los hombres o mujeres). • PROBA P-valor asociado a la prueba estadística. • V.TEST Valor test asociado a la prueba estadística.

Análisis factoriales con SPAD 31

Page 32: Manual de introducción a los métodos factoriales y clasificación con

Por ejemplo, observamos que el salario medio de los encuestados es de 4.408,55 ff, mientras que para los hombres, esta media aumenta hasta los 6533,19 ff. 4.2 Caracterización de una variable continua En el caso de querer caracterizar una variable continua deberíamos utilizar el método DESCO, que presenta unos resultados similares al método DEMOD. Retomemos el ejemplo 4. Supongamos que queremos caracterizar la variable continua edad. Debemos pues inserir un nuevo método en la filière tal como sigue:

En la parametrización del método debemos realizar las acciones siguientes:

Análisis factoriales con SPAD 32

Page 33: Manual de introducción a los métodos factoriales y clasificación con

Análisis factoriales con SPAD 33

Page 34: Manual de introducción a los métodos factoriales y clasificación con

Si ejecutamos la filière nos aparecerá un icono de resultados tipo listado.

En él se nos presentarán los siguientes resultados: • Caracterización de la variable edad a partir de modalidades de variables categóricas: DESCRIPTION DE VARIABLES CONTINUES DESCRIPTION DE : Age de l'enquêté(e) CARACTERISATION PAR LES MODALITES DE LA VARIABLE : Age de l'enquêté(e) SUR 315.0 INDIVIDUS ACTIFS MOYENNE = 43.756 ECART-TYPE = 16.581 +--------------+-------------------+--------------------+------------------------------------------------------------+-----------+ | V.TEST PROB.| MOYENNE E-TYPE | MODALITES |LIBELLE DE LA VARIABLE | POIDS | +--------------+-------------------+--------------------+------------------------------------------------------------+-----------+ | 12.01 0.000 | 68.46 6.73 |retraité |Situation actuelle de la personne interrogée | 54.00 |

Análisis factoriales con SPAD 34

Page 35: Manual de introducción a los métodos factoriales y clasificación con

| 6.93 0.000 | 52.54 17.87 |non |Exercez-vous en ce moment une activité professionnelle | 111.00 | | 6.71 0.000 | 50.69 18.97 |*Reponse manquante* |Avez-vous été au chômage ces douze derniers mois ? | 142.00 | | 6.71 0.000 | 50.69 18.97 |*Reponse manquante* |Avez-vous des conflits travail - vie personnelle | 142.00 | | 6.29 0.000 | 67.00 10.94 |veuf(ve) |Statut matrimonial | 19.00 | | 5.92 0.000 | 55.93 15.66 |aucun diplôme |Niveau d'études de l'enquêté(e) | 54.00 | | 5.30 0.000 | 48.16 17.37 |tous les jours |Regardez-vous la télévision ? | 176.00 | | 5.09 0.000 | 49.33 15.64 |propriétaire |Statut d'occupation du logement | 133.00 | | 4.12 0.000 | 46.10 16.75 |oui |La famille est le seul endroit où l'on se sent bien | 230.00 | | 4.12 0.000 | 55.86 14.59 |ne sait pas |Estimez-vous que la société a besoin de se transformer | 29.00 | | 3.93 0.000 | 51.83 16.03 |cep seul |Niveau d'études de l'enquêté(e) | 54.00 | | 3.85 0.000 | 49.23 16.55 |semblables |Opinion sur les conditions de vie à venir | 95.00 | | 3.76 0.000 | 58.06 16.40 |2001 à 5000 |Taille d'agglomération (nombre d'habitants) | 18.00 | | 3.58 0.000 | 58.73 16.01 |à la femme seule |Les travaux du ménage,les soins des enfants incombent ... | 15.00 | | 3.25 0.001 | 52.50 15.30 |peu |Etes-vous satisfait de votre état de santé | 34.00 | | 2.96 0.002 | 48.07 18.19 |beaucoup |Etes-vous inquiet du risque d'une agression dans la rue | 92.00 | | 2.94 0.002 | 45.26 15.31 |oui |Avez-vous eu des enfants | 243.00 | | 2.94 0.002 | 47.21 18.70 |non |Vous imposez-vous régulièrement des restrictions | 122.00 | | 2.77 0.003 | 46.80 15.92 |très |Etes-vous satisfait de votre logement proprement dit | 132.00 | | 2.68 0.004 | 44.86 17.10 |non |Disposez-vous d'un magnétoscope | 264.00 | | 2.44 0.007 | 46.17 16.77 |oui |Avez-vous souffert récemment de mal au dos | 149.00 | | 2.41 0.008 | 54.62 18.75 |ne sait pas |Opinion sur les conditions de vie à venir | 13.00 | | -2.34 0.010 | 40.82 16.20 |assez mal |Opinion sur le fonctionnement de la justice en 1986 | 113.00 | | -2.35 0.009 | 42.24 16.42 |homme et femme |Les travaux du ménage,les soins des enfants incombent ... | 214.00 | | -2.38 0.009 | 37.65 15.23 |peu |Etes-vous satisfait de votre cadre de vie quotidien | 37.00 | | -2.44 0.007 | 41.59 16.11 |non |Avez-vous souffert récemment de mal au dos | 166.00 | | -2.45 0.007 | 28.57 8.24 |ne sait pas |Les dépenses de logement sont pour vous une charge ... | 7.00 | | -2.68 0.004 | 38.06 12.09 |oui |Disposez-vous d'un magnétoscope | 51.00 | | -2.72 0.003 | 38.90 14.33 |plus de 200000 |Taille d'agglomération (nombre d'habitants) | 68.00 | | -2.73 0.003 | 41.07 16.56 |assez |Etes-vous satisfait de votre logement proprement dit | 150.00 | | -2.76 0.003 | 40.21 15.57 |souhaitable |La diffusion de l'informatique est une chose ... | 109.00 | | -2.81 0.003 | 41.02 15.07 |pas du tout d'accord|Les gens comme moi se sentent souvent seuls | 151.00 | | -2.87 0.002 | 39.64 14.45 |un peu |Etes-vous inquiet du risque d'une agression dans la rue | 94.00 | | -2.91 0.002 | 34.04 11.79 |chômeur |Situation actuelle de la personne interrogée | 23.00 | | -2.94 0.002 | 37.02 13.43 |bac ou bs |Niveau d'études de l'enquêté(e) | 45.00 | | -2.94 0.002 | 41.57 14.67 |oui |Vous imposez-vous régulièrement des restrictions | 193.00 | | -3.05 0.001 | 31.44 8.97 |concubinage |Statut matrimonial | 16.00 | | -3.07 0.001 | 37.57 12.85 |cep et cap |Niveau d'études de l'enquêté(e) | 56.00 | | -3.11 0.001 | 38.21 12.92 |non |Estimez-vous que la société a besoin de se transformer | 68.00 | | -3.12 0.001 | 38.25 19.46 |non |Avez-vous eu des enfants | 69.00 | | -3.25 0.001 | 39.72 14.89 |dissout si accord |Opinion sur le mariage | 114.00 | | -3.38 0.000 | 35.79 12.63 |études sup. g.écoles|Niveau d'études de l'enquêté(e) | 43.00 | | -3.54 0.000 | 38.78 12.00 |non |Avez-vous des conflits travail - vie personnelle | 97.00 | | -3.65 0.000 | 29.47 7.62 |oui |Avez-vous été au chômage ces douze derniers mois ? | 17.00 | | -3.79 0.000 | 39.56 16.93 |locataire |Statut d'occupation du logement | 131.00 | | -3.98 0.000 | 37.14 10.89 |oui |Avez-vous des conflits travail - vie personnelle | 76.00 | | -4.06 0.000 | 37.03 12.92 |assez souvent |Regardez-vous la télévision ? | 76.00 | | -4.26 0.000 | 36.92 12.98 |très |Etes-vous satisfait de votre état de santé | 80.00 | | -4.28 0.000 | 28.76 5.80 |améliorer beaucoup |Opinion sur les conditions de vie à venir | 21.00 | | -4.41 0.000 | 36.86 13.97 |non |La famille est le seul endroit où l'on se sent bien | 83.00 | | -4.59 0.000 | 35.64 12.57 |améliorer un peu |Opinion sur les conditions de vie à venir | 69.00 | | -4.63 0.000 | 32.71 17.21 |célibataire |Statut matrimonial | 42.00 | | -4.80 0.000 | 21.17 2.48 |étudiant |Situation actuelle de la personne interrogée | 12.00 | | -5.03 0.000 | 39.00 11.52 |non |Avez-vous été au chômage ces douze derniers mois ? | 156.00 | | -5.83 0.000 | 37.77 11.24 |oui, plein temps |Exercez-vous en ce moment une activité professionnelle | 143.00 | | -6.57 0.000 | 38.15 11.34 |actif |Situation actuelle de la personne interrogée | 172.00 | +--------------+-------------------+--------------------+------------------------------------------------------------+-----------+ | | 43.76 16.58 | ENSEMBLE | 315.00 | +--------------+-------------------+--------------------+------------------------------------------------------------+-----------+

• Correlaciones con el resto de variables continuas CORRELATION AVEC LES VARIABLES CONTINUES DE LA VARIABLE : Age de l'enquêté(e) +--------+--------+--------+--------------------------------------------------------------------+------------+ | V.TEST | PROBA. | CORR. | NUM . LIBELLE DE LA VARIABLE | POIDS | +--------+--------+--------+--------------------------------------------------------------------+------------+ | 99.90 | 0.000 | 1.000 | 4 . Age de l'enquêté(e) | 315.000 | | 5.38 | 0.000 | 0.295 | 28 . Nombre d'enfants eus | 315.000 | | 4.92 | 0.000 | 0.271 | 46 . Religion : importance accordée | 315.000 | | -3.12 | 0.001 | -0.175 | 43 . Temps libre, détente : importance accordée | 315.000 | | -4.26 | 0.000 | -0.237 | 42 . Travail, profession : importance accordée | 315.000 | | -5.99 | 0.000 | -0.343 | 50 . Prestat° familiales : montant mensuel moyen | 283.000 | | -7.46 | 0.000 | -0.399 | 26 . Nb person. dans logmt | 315.000 | +--------+--------+--------+--------------------------------------------------------------------+------------+

Podemos observar relaciones obvias, como por ejemplo que las personas jubiladas (retraités) presentan una media de edad superior, y otras más interesantes como que las personas que cada día ven la televisión presentan una media de edad superior a la global. Por el otro lado observamos que la edad está relacionada positivamente con el número de hijos y la importancia atorgada a la religión y está relacionada inversamente con el número de personas con el que se convive, el monto de prestaciones familiares recibido, la importancia atorgada al trabajo y la importancia atorgada al tiempo libre.

Análisis factoriales con SPAD 35

Page 36: Manual de introducción a los métodos factoriales y clasificación con

5 Análisis factoriales simples En este apartado presentamos los métodos multivariantes simples de reducción de datos que pueden realizarse con SPAD: análisis de componentes principales (ACP), análisis de correspondencias simples (ACS) y análisis de correspondencias múltiples (ACM). Cabe destacar que en su origen SPAD se desarrolló para ejecutar estos análisis. Por otro lado, SPAD presenta una forma original de ejecutar estos métodos, combinándolos con los métodos de clasificación. El entorno gráfico con el que se realizan los gráficos factoriales es otro logro de SPAD. 5.1 Análisis de componentes principales El análisis de componentes principales se utiliza cuando la matriz de datos está compuesta por un conjunto de variables continuas (activas). Igualmente puede ser de nuestro interés utilizar variables ilustrativas (continuas o categóricas) que no participen en la creación de los ejes pero que estemos interesados en proyectarlas en el espacio factorial creado. Ejemplo 5. En la tabla siguiente se muestra la repartición, en porcentajes, de los gastos publicitarios en los diferentes medios de comunicación en 16 países de Europa, en el año 1990. Los datos se han extraído de Press Landscape update & Eur. Direct Marketing NTC, 1991. Newspapers Magazines TV Radio Cinema Outdoor/Transport

BEL Belgium 35.3 20.5 27.5 1.2 1.4 14.2 DK Denmark 76.1 11.8 9.6 0.8 0.4 1.3 FR France 28.6 27.5 24.8 6.6 0.8 11.7 AL Germany 46.0 27.9 15.8 5.1 1.2 3.9 GR Greece 26.0 28.2 35.3 5.7 0.0 4.8 IR Ireland 63.7 5.4 19.6 6.2 0.0 5.1 IT Italy 27.8 24.0 43.02 1.4 0.0 3.6 NE Neth 50.4 27.8 9.0 2.2 0.3 10.4 POR Portugal 25.1 21.7 37.1 6.7 0.0 9.5 ESP Spain 37.6 15.4 31.3 10.3 0.8 4.7 UK U.K. 44.1 19.3 30.5 2.2 0.5 3.4 AUT Austria 51.6 18.0 17.7 8.0 0.4 4.4 FIN Finland 67.2 13.5 12.9 4.0 0.1 2.3 NOR Norway 77.2 15.8 2.5 1.0 1.2 2.2 SUE Sweden 78.6 14.3 2.2 0.0 0.6 4.3 SUI Switz 61.1 16.8 6.7 1.7 0.9 12.7

Los datos se encuentran en el archivo caspub.sba. Para realizar un análisis de componentes principales debemos crear una filière, indicar el archivo de datos y encadenar el método COPRI.

Análisis factoriales con SPAD 36

Page 37: Manual de introducción a los métodos factoriales y clasificación con

Para pareametrizar el método debemos realizar un doble clic sobre el icono. Nos aparecerá una nueva ventana donde debemos indicarle las variables continuas activas.

En la subventana Paramètres podemos especificar algunas opciones de análisis. Podríamos realizar un análisis normée o non normée para que el espacio factorial sea ortonormal o bien ortogonal, respectivamente. En la mayoría de casos se utiliza la primera opción para igualar las escalas en que están medidas las variables. También podemos indicar cuantos ejes factoriales se desean conservar (como máximo tantos como variables continuas activas), y cuantos queremos editar en los resultados de salida. Las opciones por defecto son en la mayoría de casos suficientes.

Análisis factoriales con SPAD 37

Page 38: Manual de introducción a los métodos factoriales y clasificación con

Una vez parametrizado, la filière deberá tener el aspecto siguiente:

La ejecutamos y obtenemos tres iconos de resultados.

Análisis factoriales con SPAD 38

Page 39: Manual de introducción a los métodos factoriales y clasificación con

En el primer icono, , encontraremos los resultados del análisis factorial. Los resultados más relevantes son: • Valores propios del ACP. En nuestro ejemplo observamos que los dos primeros ejes

factoriales conservan un 70,69% de la inercia. VALEURS PROPRES APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 6.0000 SOMME DES VALEURS PROPRES .... 6.0000 HISTOGRAMME DES 6 PREMIERES VALEURS PROPRES +--------+------------+----------+----------+----------------------------------------------------------------------------------+ | NUMERO | VALEUR | POURCENT.| POURCENT.| | | | PROPRE | | CUMULE | | +--------+------------+----------+----------+----------------------------------------------------------------------------------+ | 1 | 2.7120 | 45.20 | 45.20 | ******************************************************************************** | | 2 | 1.5297 | 25.49 | 70.69 | ********************************************** | | 3 | 0.7817 | 13.03 | 83.72 | ************************ | | 4 | 0.5795 | 9.66 | 93.38 | ****************** | | 5 | 0.3965 | 6.61 | 99.99 | ************ | | 6 | 0.0006 | 0.01 | 100.00 | * | +--------+------------+----------+----------+----------------------------------------------------------------------------------+

• Coordenadas de las variables en el espacio factorial. Nos puede ayudar a interpretar el

ACP y sus ejes. COORDONNEES DES VARIABLES SUR LES AXES 1 A 5 VARIABLES ACTIVES ----------------------------+------------------------------------+-------------------------------+------------------------------- VARIABLES | COORDONNEES | CORRELATIONS VARIABLE-FACTEUR | ANCIENS AXES UNITAIRES ----------------------------+------------------------------------+-------------------------------+------------------------------- IDEN - LIBELLE COURT | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 ----------------------------+------------------------------------+-------------------------------+------------------------------- C2 - Diarios | 0.99 -0.05 0.03 -0.01 0.10 | 0.99 -0.05 0.03 -0.01 0.10 | 0.60 -0.04 0.04 -0.02 0.16 C3 - Revistas | -0.69 0.42 -0.34 0.32 0.36 | -0.69 0.42 -0.34 0.32 0.36 | -0.42 0.34 -0.39 0.42 0.57 C4 - Televisión | -0.87 -0.28 -0.12 0.02 -0.38 | -0.87 -0.28 -0.12 0.02 -0.38 | -0.53 -0.23 -0.14 0.02 -0.61 C5 - Radio | -0.53 -0.40 0.71 0.10 0.21 | -0.53 -0.40 0.71 0.10 0.21 | -0.32 -0.32 0.80 0.14 0.34 C6 - Cine | 0.20 0.79 0.34 0.39 -0.26 | 0.20 0.79 0.34 0.39 -0.26 | 0.12 0.64 0.39 0.51 -0.41 C7 - OUTDOOR/TRANSPORT | -0.40 0.70 0.17 -0.56 0.05 | -0.40 0.70 0.17 -0.56 0.05 | -0.24 0.57 0.19 -0.74 0.08 -

---------------------------+------------------------------------+-------------------------------+-------------------------------

• Coordenadas de los individuos en el espacio factorial. Podemos observar qué países están bien representados en los ejes, a partir de las contribuciones y los cosenos cuadrados.

COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUS AXES 1 A 5 +---------------------------------------+-------------------------------+--------------------------+--------------------------+ | INDIVIDUS | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES | |---------------------------------------+-------------------------------+--------------------------+--------------------------| | IDENTIFICATEUR P.REL DISTO | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 | +---------------------------------------+-------------------------------+--------------------------+--------------------------+ | Bélgica 6.25 9.53 | -0.83 2.62 0.20 -0.55 -1.29 | 1.6 27.9 0.3 3.3 26.0 | 0.07 0.72 0.00 0.03 0.17 | | Dinamarca 6.25 6.81 | 2.40 -0.79 -0.59 0.08 -0.25 | 13.3 2.5 2.8 0.1 1.0 | 0.85 0.09 0.05 0.00 0.01 | | Francia 6.25 6.19 | -1.99 1.26 0.63 -0.05 0.50 | 9.1 6.4 3.1 0.0 3.9 | 0.64 0.26 0.06 0.00 0.04 | | Alemania 6.25 4.55 | -0.32 1.02 0.29 1.77 0.44 | 0.2 4.2 0.7 33.8 3.0 | 0.02 0.23 0.02 0.69 0.04 | | Grecia 6.25 6.92 | -2.26 -0.90 -0.80 0.36 0.50 | 11.7 3.3 5.1 1.4 3.9 | 0.74 0.12 0.09 0.02 0.04 | | Irlanda 6.25 7.30 | 1.19 -1.83 1.00 -1.22 -0.21 | 3.3 13.8 7.9 15.9 0.7 | 0.19 0.46 0.14 0.20 0.01 | | Italia 6.25 7.91 | -1.72 -0.96 -1.86 0.13 -0.76 | 6.8 3.8 27.5 0.2 9.0 | 0.37 0.12 0.44 0.00 0.07 | | Holanda 6.25 4.32 | -0.20 1.11 -0.85 -0.60 1.40 | 0.1 5.0 5.8 3.9 30.9 | 0.01 0.29 0.17 0.08 0.45 | | Portugal 6.25 6.74 | -2.34 -0.71 0.07 -0.88 0.04 | 12.6 2.0 0.0 8.4 0.0 | 0.81 0.07 0.00 0.12 0.00 | | España 6.25 6.66 | -1.15 -0.91 1.95 0.64 -0.52 | 3.1 3.4 30.5 4.4 4.3 | 0.20 0.13 0.57 0.06 0.04 | | Reino Unido 6.25 1.61 | -0.28 -0.43 -0.77 0.42 -0.77 | 0.2 0.7 4.7 1.9 9.3 | 0.05 0.11 0.37 0.11 0.37 | | Austria 6.25 2.25 | -0.12 -0.91 1.00 0.27 0.57 | 0.0 3.4 8.0 0.8 5.2 | 0.01 0.37 0.44 0.03 0.15 | | Finlandia 6.25 3.89 | 1.37 -1.37 -0.09 -0.17 0.32 | 4.3 7.7 0.1 0.3 1.6 | 0.48 0.48 0.00 0.01 0.03 | | Noruega 6.25 8.59 | 2.61 0.77 0.03 1.06 -0.21 | 15.7 2.4 0.0 12.1 0.7 | 0.79 0.07 0.00 0.13 0.01 | | Suecia 6.25 7.12 | 2.59 0.27 -0.55 -0.15 0.15 | 15.5 0.3 2.4 0.2 0.3 | 0.94 0.01 0.04 0.00 0.00 | | Suiza 6.25 5.60 | 1.04 1.78 0.34 -1.11 0.09 | 2.5 12.9 0.9 13.3 0.1 | 0.19 0.57 0.02 0.22 0.00 | +---------------------------------------+-------------------------------+--------------------------+--------------------------+

Análisis factoriales con SPAD 39

Page 40: Manual de introducción a los métodos factoriales y clasificación con

En el segundo icono, , podemos editar los gráficos factoriales. Realizando un doble clic nos aparece una pantalla donde se editarán los gráficos. En primer lugar, debemos ejecutar la opción Nouveau del menú Graphique.

Se nos abrirá una nueva pantalla donde indicaremos el tipo de gráfico a realizar. Básicamente hay tres gráficos factoriales interesantes: • Gráfico de las proyecciones de las variables sobre los ejes factoriales

Nos aparecerá un gráfico con el siguiente aspecto:

Análisis factoriales con SPAD 40

Page 41: Manual de introducción a los métodos factoriales y clasificación con

Para editar las etiquetas basta con realizar un doble clic sobre las flechas. SPAD permite arrastar las etiquetas.

Las flechas deben interpretarse como direcciones de crecimiento de las variables en el espacio factorial. Observamos pues que los países que utilizan mucha publicidad en televisión también utilizan la radio y muy poco el cine. Por el otro lado los paísos que utilizan revistas como medio, suelen también utilizar más recurson en publicidad outdoor. • Gráfico de las proyecciones de los individuos (países) sobre los ejes factioriales

Análisis factoriales con SPAD 41

Page 42: Manual de introducción a los métodos factoriales y clasificación con

Nos aparecerá un gráfico con el aspecto siguiente:

Para editar todas las etiquetas de una sola vez, podemos seleccionar la opción De tous les points en el menú Selection y luego la opción Écrire les libellées en Habillage. Para deseleccionar los puntos, basta con ejecutar la opción Désélection totale en Sélection.

Análisis factoriales con SPAD 42

Page 43: Manual de introducción a los métodos factoriales y clasificación con

A veces puede resultar interesante ponderar los puntos a partir de la contribución de cada país en el espacio factorial creado. Para ello debemos ejecutar la opción Styles pour les categories en Preferences, que nos permite realizar esta opción y muchas otras, como el color de los símbolos, tamaño de las etiquetas, símbolos, ...

Análisis factoriales con SPAD 43

Page 44: Manual de introducción a los métodos factoriales y clasificación con

Los países cercanos son países que presentan distribuciones parecidas en el reparto de los gastos publicitarios. Observamos que podes pueden diferenciar claramente los países latinos de los países anglosajones. • Gráfico de las proyecciones de las variables y individuos utilizando los ejes unitarios

Si editamos las etiquetas y asignamos un peso a los países proporcional a sus contribuciones, obtendremos el gráfico siguiente:

Análisis factoriales con SPAD 44

Page 45: Manual de introducción a los métodos factoriales y clasificación con

Muy a menudo se suelen interpretar estos gráficos diferenciando en los cuatro cuadrantes. Los países más alejados del origen de coordenadas son los países que presentan un perfil más alejado del perfil medio. En este gráfico podríamos concluir lo siguiente: Portugal , Grecia, Italia y España tienden a dedicar más recursos publicitarios en televisión y radio y muy poco en el cine. Francia y Bélgica dedican más recursos en revistas y outdoor. Por el otro lado, países nórdicos como Suiza, Noruega, Suecia, Dinamarca, Finlandia y Irlanda destinan más recursos a los diarios. Suiza, Holanda y Alemania en concreto dedican más recursos al cine.

Análisis factoriales con SPAD 45

Page 46: Manual de introducción a los métodos factoriales y clasificación con

5.2 Análisis de correspondencias simples El análisis de correspondencias simples se utiliza cuando queremos analizar dos variables categóricas, que definen una tabla de contingencia. El interés recae en analizar las asociaciones entre las categorías de ambas variables, y su proyección en un biplot. Ejemplo 6. Del archivo de datos enquete.sba deseamos analizar conjuntamente dos variables categóricas, el nivel de estudios y la opinión acerca de las condiciones de vida en un futuro. En análisis de correspondencias simples se realiza sobre las frecuencias creadas en la tabla de contingencia. En nuestro caso, debemos crear esta tabla de contingencia, por lo que escogeremos el método TABLE+CORBI. La filière debe tener el aspecto siguiente:

Realizamos un doble clic sobre el icono del método y debemos indicar qué variables definen las columnas y las filas de la tabla de contingencia. Para ello, debemos cliquear en el botón Construction du tableau de la subventana Comandes.

Análisis factoriales con SPAD 46

Page 47: Manual de introducción a los métodos factoriales y clasificación con

En la subventana Paramètres de l’analyse podemos indicar algunas opciones sobre el análisis factorial. En la mayoría de casos, los parámetros por defecto son suficientes. Si ejecutamos la filière, nos crea los siguientes iconos de salida:

Del el icono de listado, destacaremos los siguientes resultados: • Tabla de contingencia. Definida por las dos variables categóricas. Podemos observar las

frecuencias absolutas y las frecuencias relativas por fila y por columna. También se realiza un contraste de independencia de ji-cuadrado, en el que observamos que se rechaza la hipótesis de independencia.

EDITION DES COMMANDES COMMANDE 1 TABLEAU 1 EN LIGNE : 32 . Opinion sur les conditions de vie à venir EN COLONNE : 7 . Niveau d'études de l'enquêté(e) EDITION DES TABLEAUX TABLEAU 1 EN LIGNE : Opinion sur les conditions de vie à venir POIDS TOTAL : 315. EN COLONNE : Niveau d'études de l'enquêté(e) EFF. | | | | | | | | | | %COL | Dip1 | Dip2 | Dip3 | Dip4 | Dip5 | Dip6 | Dip7 | Dip8 | Dip9 | TOT. %LIG | | | | | | | | | | -----+--------+--------+--------+--------+--------+--------+--------+--------+--------+-------- | 0 | 1 | 5 | 1 | 0 | 2 | 3 | 9 | 0 | 21 Ftr1 | 0.00 | 1.85 | 8.93 | 3.57 | 0.00 | 11.76 | 6.67 | 20.93 | 0.00 | 6.67 | 0.00 | 4.76 | 23.81 | 4.76 | 0.00 | 9.52 | 14.29 | 42.86 | 0.00 | 100.00 -----+--------+--------+--------+--------+--------+--------+--------+--------+--------+-------- | 7 | 11 | 12 | 7 | 2 | 4 | 14 | 10 | 2 | 69 Ftr2 | 12.96 | 20.37 | 21.43 | 25.00 | 22.22 | 23.53 | 31.11 | 23.26 | 22.22 | 21.90 | 10.14 | 15.94 | 17.39 | 10.14 | 2.90 | 5.80 | 20.29 | 14.49 | 2.90 | 100.00 -----+--------+--------+--------+--------+--------+--------+--------+--------+--------+-------- | 16 | 17 | 14 | 8 | 4 | 6 | 16 | 10 | 4 | 95 Ftr3 | 29.63 | 31.48 | 25.00 | 28.57 | 44.44 | 35.29 | 35.56 | 23.26 | 44.44 | 30.16 | 16.84 | 17.89 | 14.74 | 8.42 | 4.21 | 6.32 | 16.84 | 10.53 | 4.21 | 100.00 -----+--------+--------+--------+--------+--------+--------+--------+--------+--------+-------- | 19 | 13 | 17 | 10 | 1 | 3 | 9 | 14 | 2 | 88 Ftr4 | 35.19 | 24.07 | 30.36 | 35.71 | 11.11 | 17.65 | 20.00 | 32.56 | 22.22 | 27.94 | 21.59 | 14.77 | 19.32 | 11.36 | 1.14 | 3.41 | 10.23 | 15.91 | 2.27 | 100.00 -----+--------+--------+--------+--------+--------+--------+--------+--------+--------+-------- | 6 | 11 | 5 | 1 | 2 | 0 | 3 | 0 | 1 | 29 Ftr5 | 11.11 | 20.37 | 8.93 | 3.57 | 22.22 | 0.00 | 6.67 | 0.00 | 11.11 | 9.21 | 20.69 | 37.93 | 17.24 | 3.45 | 6.90 | 0.00 | 10.34 | 0.00 | 3.45 | 100.00 -----+--------+--------+--------+--------+--------+--------+--------+--------+--------+-------- | 6 | 1 | 3 | 1 | 0 | 2 | 0 | 0 | 0 | 13 Ftr6 | 11.11 | 1.85 | 5.36 | 3.57 | 0.00 | 11.76 | 0.00 | 0.00 | 0.00 | 4.13 | 46.15 | 7.69 | 23.08 | 7.69 | 0.00 | 15.38 | 0.00 | 0.00 | 0.00 | 100.00 -----+--------+--------+--------+--------+--------+--------+--------+--------+--------+-------- | 54 | 54 | 56 | 28 | 9 | 17 | 45 | 43 | 9 | 315 TOT. | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 17.14 | 17.14 | 17.78 | 8.89 | 2.86 | 5.40 | 14.29 | 13.65 | 2.86 | 100.00 --------------------------------------------------------------------------------------------------------------------------------------- KHI2 = 63.41 / 40 DEGRES DE LIBERTE / 34 EFFECTIFS THEORIQUES INFERIEURS A 5 PROBA ( KHI2 > 63.41 ) = 0.011 / V.TEST = 2.30 ---------------------------------------------------------------------------------------------------------------------------------------

• Valores propios del análisis factorial. Observamos que con los dos primeros ejes

conservamos un 83% de la inercia. VALEURS PROPRES APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 0.2013 SOMME DES VALEURS PROPRES .... 0.2013 HISTOGRAMME DES 5 PREMIERES VALEURS PROPRES +--------+------------+----------+----------+----------------------------------------------------------------------------------+ | NUMERO | VALEUR | POURCENT.| POURCENT.| | | | PROPRE | | CUMULE | | +--------+------------+----------+----------+----------------------------------------------------------------------------------+ | 1 | 0.1112 | 55.27 | 55.27 | ******************************************************************************** | | 2 | 0.0571 | 28.36 | 83.63 | ****************************************** | | 3 | 0.0193 | 9.59 | 93.22 | ************** | | 4 | 0.0114 | 5.66 | 98.88 | ********* | | 5 | 0.0022 | 1.12 | 100.00 | ** | +

--------+------------+----------+----------+----------------------------------------------------------------------------------+

Análisis factoriales con SPAD 47

Page 48: Manual de introducción a los métodos factoriales y clasificación con

• Proyecciones de los puntos fila y columna sobre el espacio factorial. Se puede entrar más en detalle sobre el análisis factorial. Las contribuciones indican cuando una categoría está bien representada sobre un eje factorial.

COORDONNEES, CONTRIBUTIONS DES FREQUENCES SUR LES AXES 1 A 5 FREQUENCES ACTIVES +------------------------------------------+-------------------------------+--------------------------+--------------------------+ | FREQUENCES | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES | |------------------------------------------+-------------------------------+--------------------------+--------------------------| | IDEN - LIBELLE COURT P.REL DISTO | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 | +------------------------------------------+-------------------------------+--------------------------+--------------------------+ | Dip1 - 17.14 0.24 | 0.33 0.36 0.02 -0.02 0.03 | 17.1 39.5 0.2 0.6 7.5 | 0.45 0.54 0.00 0.00 0.00 | | Dip2 - 17.14 0.19 | 0.34 -0.23 0.13 0.05 -0.02 | 17.7 16.4 15.7 3.6 2.1 | 0.60 0.29 0.09 0.01 0.00 | | Dip3 - 17.78 0.02 | -0.07 0.09 0.08 0.03 -0.05 | 0.8 2.4 5.5 1.5 23.2 | 0.23 0.34 0.27 0.04 0.13 | | Dip4 - 8.89 0.08 | -0.05 0.08 -0.07 -0.25 -0.02 | 0.2 1.1 2.5 48.0 1.9 | 0.03 0.09 0.07 0.81 0.01 | | Dip5 - 2.86 0.46 | 0.45 -0.47 -0.07 0.17 0.09 | 5.1 11.1 0.8 6.9 9.5 | 0.43 0.48 0.01 0.06 0.02 | | Dip6 - 5.40 0.32 | -0.22 0.30 -0.33 0.27 -0.01 | 2.3 8.5 30.9 33.8 0.3 | 0.15 0.28 0.35 0.22 0.00 | | Dip7 - 14.29 0.12 | -0.11 -0.26 -0.19 -0.05 -0.03 | 1.5 17.4 26.0 2.7 5.6 | 0.10 0.58 0.29 0.02 0.01 | | Dip8 - 13.65 0.46 | -0.66 -0.02 0.14 0.01 0.05 | 54.0 0.1 13.9 0.3 14.1 | 0.95 0.00 0.04 0.00 0.01 | | Dip9 - 2.86 0.19 | 0.22 -0.27 -0.17 -0.10 0.17 | 1.3 3.6 4.5 2.6 35.9 | 0.26 0.38 0.16 0.05 0.15 | +------------------------------------------+-------------------------------+--------------------------+--------------------------+ COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUS AXES 1 A 5 +---------------------------------------+-------------------------------+--------------------------+--------------------------+ | INDIVIDUS | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES | |---------------------------------------+-------------------------------+--------------------------+--------------------------| | IDENTIFICATEUR P.REL DISTO | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 | +---------------------------------------+-------------------------------+--------------------------+--------------------------+ | Ftr1 : améliorer beaucou 6.67 1.01 | -0.97 -0.01 0.16 0.22 0.01 | 56.4 0.0 9.3 27.1 0.6 | 0.93 0.00 0.03 0.05 0.00 | | Ftr2 : améliorer un peu 21.90 0.06 | -0.12 -0.15 -0.11 -0.04 -0.07 | 2.9 9.2 14.0 2.6 49.3 | 0.25 0.42 0.22 0.02 0.09 | | Ftr3 : semblables 30.16 0.03 | 0.09 -0.08 -0.12 0.02 0.06 | 2.0 3.5 22.4 1.3 40.7 | 0.24 0.20 0.45 0.02 0.09 | | Ftr4 : détériorer un peu 27.94 0.06 | -0.03 0.16 0.12 -0.12 0.01 | 0.3 13.1 20.6 36.9 1.1 | 0.02 0.47 0.25 0.26 0.00 | | Ftr5 : détériorer beauco 9.21 0.55 | 0.63 -0.27 0.24 0.13 -0.03 | 33.1 11.8 28.6 14.6 2.6 | 0.72 0.13 0.11 0.03 0.00 | | Ftr6 : ne sait pas 4.13 1.08 | 0.38 0.93 -0.15 0.22 -0.06 | 5.3 62.4 5.1 17.4 5.6 | 0.13 0.80 0.02 0.04 0.00 | +

---------------------------------------+-------------------------------+--------------------------+--------------------------+

En el segundo icono podemos realizar el gráfico de correspondencias, de la forma siguiente:

Después de editar las etiquetas tendremos el gráfico siguiente:

Análisis factoriales con SPAD 48

Page 49: Manual de introducción a los métodos factoriales y clasificación con

En él, podemos observar, que se observa que a mayor formación en estudios más optimista es la opinión sobre el avenir.

Análisis factoriales con SPAD 49

Page 50: Manual de introducción a los métodos factoriales y clasificación con

5.3 Análisis de correspondencias múltiples El análisis de correspondencias múltiples se utiliza cuando queremos analizar un conjunto de variables categóricas. Se crea una tabla individuos × variables dummies (binarias), donde cada una de las variables categóricas define un conjunto de variables dummies (binarias) para cada una de sus modalidades, excepto la redundante. Ejemplo 7. El archivo de datos credit.sba contiene información referente a 480 clientes de una entidad bancaria. Se dispone de las siguientes variables categóricas:

• Tipo de cliente (bueno/malo) • Edad del cliente (-23, 23-40, 40-50, +50, años) • Situación familiar (soltero, casado, divorciado, viudo) • Antigüedad (-1, 1-4, 4-6, 6-12, +12, años) • Domiciliación del salario (domiciliación, no domiciliación) • Domiciliación de los ahorros (no ahorros, -10KF, 10-100 KF, +100KF) • Profesión (empresario, trabajador, otra) • Media actual (-2KF, 2-5 KF, +5KF) • Media movimientos (-10KF, 10-30 KF, 30-50 KF, +50 KF) • Acumulación de débito (-40, 40-100, +100) • Descubierto (autorizado, prohibido) • Cheques (autorizado, prohibido)

Mediante un análisis de correspondencias múltiples se estudiarán de forma conjunta las asociaciones entre las variables de forma conjunta. Primeramente debemos crear una nueva filière, indicar el archivo de datos e inserir el método CORMU.

Realizaremos un doble clic sobre el icono CORMU. Debemos indicar las variables nominales que deseamos analizar. Podemos dejar el resto de parámetros con sus valores por defecto.

Análisis factoriales con SPAD 50

Page 51: Manual de introducción a los métodos factoriales y clasificación con

Guardando y ejecutando la filière obtendremos los iconos de salida siguientes:

Estos iconos son los mismos que para el caso de correspondencias simples. Destacaremos los siguientes resultados: • Diagramas de barras de las variables categóricas. Podemos observar las frecuencias de

cada una de las categorías. SPAD elimina por defecto aquellas categorías con una frecuencia observada baja.

TRI-A-PLAT DES QUESTIONS ACTIVES ----------------------------+-----------------+----------------------------------------------------------------------------------- MODALITES | AVANT APUREMENT | APRES APUREMENT IDENT LIBELLE | EFF. POIDS | EFF. POIDS HISTOGRAMME DES POIDS RELATIFS ----------------------------+-----------------+----------------------------------------------------------------------------------- 1 . Type de client BON - bon client | 237 237.00 | 237 237.00 ******************************* MAUV - mauvais client | 231 231.00 | 231 231.00 ****************************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 2 . Age du client AGE1 - moins de 23 ans | 88 88.00 | 88 88.00 ************

Análisis factoriales con SPAD 51

Page 52: Manual de introducción a los métodos factoriales y clasificación con

AGE2 - de 23 à 40 ans | 150 150.00 | 150 150.00 ******************** AGE3 - de 40 à 50 ans | 122 122.00 | 122 122.00 **************** AGE4 - plus de 50 ans | 108 108.00 | 108 108.00 ************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 3 . Situation familiale CELB - célibataire | 170 170.00 | 170 170.00 ********************** MARI - marié | 221 221.00 | 221 221.00 ***************************** DIVO - divorcé | 61 61.00 | 61 61.00 ******** VEUF - veuf | 16 16.00 | 16 16.00 *** ----------------------------+-----------------+----------------------------------------------------------------------------------- 4 . Ancienneté ANC1 - anc. 1 an ou moins | 199 199.00 | 199 199.00 ************************** ANC2 - anc. de 1 à 4 ans | 47 47.00 | 47 47.00 ******* ANC3 - anc. de 4 à 6 ans | 69 69.00 | 69 69.00 ********* ANC4 - anc. de 6 à 12 ans | 66 66.00 | 66 66.00 ********* ANC5 - anc. plus 12 ans | 87 87.00 | 87 87.00 ************ ----------------------------+-----------------+----------------------------------------------------------------------------------- 5 . Domiciliation du salaire Soui - domicile salaire | 316 316.00 | 316 316.00 ***************************************** Snon - non dimicile salaire | 152 152.00 | 152 152.00 ******************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 6 . Domiciliation de l'épargne EPA0 - pas d'épargne | 370 370.00 | 372 372.00 ************************************************ EPA1 - moins de 10KF épargn | 58 58.00 | 60 60.00 ******** EPA2 - de 10 à 100KF épargn | 32 32.00 | 36 36.00 ***** EPA3 - plus de 100KF épargn | 8 8.00 | === VENTILEE === ----------------------------+-----------------+----------------------------------------------------------------------------------- 7 . Profession CADR - cadre | 77 77.00 | 77 77.00 ********** EMPL - employé | 237 237.00 | 237 237.00 ******************************* AUTR - autre | 154 154.00 | 154 154.00 ******************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 8 . Moyenne en cours ENC1 - moins de 2KF encours | 98 98.00 | 98 98.00 ************* ENC2 - de 2 à 5 KF encours | 308 308.00 | 308 308.00 **************************************** ENC3 - plus de 5 KF encours | 62 62.00 | 62 62.00 ******** ----------------------------+-----------------+----------------------------------------------------------------------------------- 9 . Moyenne des mouvements MOU1 - moins 10 KF mouvt | 154 154.00 | 154 154.00 ******************** MOU2 - de 10 à 30KF mouvt | 71 71.00 | 71 71.00 ********** MOU3 - de 30 à 50KF mouvt | 129 129.00 | 129 129.00 ***************** MOU4 - plus de 50KF mouvt | 114 114.00 | 114 114.00 *************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 10 . Cumul des débits DEB1 - moins de 40 débits | 171 171.00 | 171 171.00 ********************** DEB2 - de 40 à 100 débits | 161 161.00 | 161 161.00 ********************* DEB3 - plus de 100 débits | 136 136.00 | 136 136.00 ****************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 11 . Autorisation de découvert Doui - découvert autorisé | 202 202.00 | 202 202.00 ************************** Dnon - découvert interdit | 266 266.00 | 266 266.00 *********************************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 12 . Interdiction de chéquier Coui - chéquier autorisé | 415 415.00 | 415 415.00 ****************************************************** Cnon - chéquier interdit | 53 53.00 | 53 53.00 ******* ----------------------------+-----------------+-----------------------------------------------------------------------------------

• Valores propios asociados al análisis factorial. Observamos que, por ejemplo, se

necesitan conservar 16 ejes para conservar el 80% de la inercia. Este resultado es habitual en el análisis de correspondencias múltiples, ya que la variabilidad inicial suele ser elevada.

VALEURS PROPRES APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 2.0833 SOMME DES VALEURS PROPRES .... 2.0833 HISTOGRAMME DES 25 PREMIERES VALEURS PROPRES +--------+------------+----------+----------+----------------------------------------------------------------------------------+ | NUMERO | VALEUR | POURCENT.| POURCENT.| | | | PROPRE | | CUMULE | | +--------+------------+----------+----------+----------------------------------------------------------------------------------+ | 1 | 0.2540 | 12.19 | 12.19 | ******************************************************************************** | | 2 | 0.1694 | 8.13 | 20.33 | ****************************************************** | | 3 | 0.1417 | 6.80 | 27.13 | ********************************************* | | 4 | 0.1292 | 6.20 | 33.33 | ***************************************** | | 5 | 0.1086 | 5.21 | 38.54 | *********************************** | | 6 | 0.1045 | 5.02 | 43.56 | ********************************* | | 7 | 0.0980 | 4.71 | 48.26 | ******************************* | | 8 | 0.0946 | 4.54 | 52.81 | ****************************** | | 9 | 0.0902 | 4.33 | 57.14 | ***************************** | | 10 | 0.0830 | 3.98 | 61.12 | *************************** | | 11 | 0.0798 | 3.83 | 64.95 | ************************** | | 12 | 0.0791 | 3.80 | 68.75 | ************************* | | 13 | 0.0732 | 3.51 | 72.26 | ************************ | | 14 | 0.0685 | 3.29 | 75.55 | ********************** | | 15 | 0.0660 | 3.17 | 78.71 | ********************* | | 16 | 0.0619 | 2.97 | 81.69 | ******************** | | 17 | 0.0612 | 2.94 | 84.62 | ******************** | | 18 | 0.0557 | 2.67 | 87.30 | ****************** | | 19 | 0.0524 | 2.51 | 89.81 | ***************** | | 20 | 0.0506 | 2.43 | 92.24 | **************** | | 21 | 0.0470 | 2.26 | 94.50 | *************** | | 22 | 0.0400 | 1.92 | 96.42 | ************* | | 23 | 0.0342 | 1.64 | 98.06 | *********** | | 24 | 0.0273 | 1.31 | 99.36 | ********* | | 25 | 0.0132 | 0.64 | 100.00 | ***** | +

--------+------------+----------+----------+----------------------------------------------------------------------------------+

• Coordenadas, contribuciones y cosenos cuadrados de las variables categóricas. COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES MODALITES ACTIVES AXES 1 A 5 +------------------------------------------+-------------------------------+--------------------------+--------------------------+ | MODALITES | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES | |------------------------------------------+-------------------------------+--------------------------+--------------------------| | IDEN - LIBELLE P.REL DISTO | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 | +------------------------------------------+-------------------------------+--------------------------+--------------------------+ | 1 . Type de client | | BON - bon client 4.22 0.97 | 0.67 0.31 -0.09 0.16 -0.01 | 7.4 2.4 0.3 0.8 0.0 | 0.46 0.10 0.01 0.02 0.00 | | MAUV - mauvais client 4.11 1.03 | -0.68 -0.32 0.09 -0.16 0.01 | 7.6 2.5 0.3 0.8 0.0 | 0.46 0.10 0.01 0.02 0.00 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 15.0 4.8 0.5 1.6 0.0 +--------------------------+ | 2 . Age du client | | AGE1 - moins de 23 ans 1.57 4.32 | -0.81 0.48 -0.52 -0.52 -0.63 | 4.0 2.1 2.9 3.3 5.8 | 0.15 0.05 0.06 0.06 0.09 | | AGE2 - de 23 à 40 ans 2.67 2.12 | -0.17 -0.07 -0.55 0.42 -0.06 | 0.3 0.1 5.8 3.6 0.1 | 0.01 0.00 0.14 0.08 0.00 | | AGE3 - de 40 à 50 ans 2.17 2.84 | 0.20 -0.01 0.19 -0.23 1.10 | 0.4 0.0 0.6 0.9 24.4 | 0.01 0.00 0.01 0.02 0.43 |

Análisis factoriales con SPAD 52

Page 53: Manual de introducción a los métodos factoriales y clasificación con

| AGE4 - plus de 50 ans 1.92 3.33 | 0.66 -0.29 0.97 0.11 -0.65 | 3.3 0.9 12.8 0.2 7.4 | 0.13 0.02 0.28 0.00 0.13 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 8.0 3.1 22.1 8.1 37.7 +--------------------------+ | 3 . Situation familiale | | CELB - célibataire 3.03 1.75 | -0.51 0.27 -0.60 0.02 -0.39 | 3.0 1.3 7.6 0.0 4.3 | 0.15 0.04 0.20 0.00 0.09 | | MARI - marié 3.94 1.12 | 0.41 -0.09 0.24 0.07 0.36 | 2.6 0.2 1.7 0.2 4.8 | 0.15 0.01 0.05 0.00 0.12 | | DIVO - divorcé 1.09 6.67 | 0.00 -0.15 0.25 -0.31 0.26 | 0.0 0.1 0.5 0.8 0.7 | 0.00 0.00 0.01 0.01 0.01 | | VEUF - veuf 0.28 28.25 | -0.24 -1.06 2.02 -0.03 -1.83 | 0.1 1.9 8.2 0.0 8.8 | 0.00 0.04 0.14 0.00 0.12 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 5.7 3.6 17.9 1.0 18.5 +--------------------------+ | 4 . Ancienneté | | ANC1 - anc. 1 an ou moins 3.54 1.35 | -0.48 0.24 0.13 -0.55 0.14 | 3.3 1.2 0.4 8.3 0.6 | 0.17 0.04 0.01 0.22 0.01 | | ANC2 - anc. de 1 à 4 ans 0.84 8.96 | -0.38 -0.42 -0.27 0.27 0.34 | 0.5 0.9 0.4 0.5 0.9 | 0.02 0.02 0.01 0.01 0.01 | | ANC3 - anc. de 4 à 6 ans 1.23 5.78 | -0.08 0.03 -0.38 0.63 -0.01 | 0.0 0.0 1.2 3.8 0.0 | 0.00 0.00 0.02 0.07 0.00 | | ANC4 - anc. de 6 à 12 ans 1.18 6.09 | 0.52 -0.04 -0.90 0.43 -0.87 | 1.3 0.0 6.7 1.7 8.2 | 0.04 0.00 0.13 0.03 0.12 | | ANC5 - anc. plus 12 ans 1.55 4.38 | 0.98 -0.31 0.83 0.28 0.17 | 5.9 0.9 7.5 1.0 0.4 | 0.22 0.02 0.16 0.02 0.01 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 10.9 3.0 16.3 15.3 10.1 +--------------------------+ | 5 . Domiciliation du salaire | | Soui - domicile salaire 5.63 0.48 | 0.36 0.13 -0.05 0.20 0.05 | 2.9 0.5 0.1 1.8 0.1 | 0.27 0.03 0.01 0.08 0.00 | | Snon - non dimicile salaire 2.71 2.08 | -0.75 -0.26 0.11 -0.42 -0.09 | 6.0 1.1 0.2 3.7 0.2 | 0.27 0.03 0.01 0.08 0.00 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 8.8 1.6 0.3 5.4 0.3 +--------------------------+ | 6 . Domiciliation de l'épargne | | EPA0 - pas d'épargne 6.62 0.26 | -0.24 0.16 0.23 0.16 -0.06 | 1.5 1.0 2.5 1.4 0.2 | 0.23 0.10 0.20 0.11 0.01 | | EPA1 - moins de 10KF épargn 1.07 6.80 | 0.46 -0.47 -0.47 -0.19 0.50 | 0.9 1.4 1.7 0.3 2.4 | 0.03 0.03 0.03 0.01 0.04 | | EPA2 - de 10 à 100KF épargn 0.64 12.00 | 1.74 -0.86 -1.59 -1.39 -0.25 | 7.6 2.8 11.5 9.5 0.4 | 0.25 0.06 0.21 0.16 0.01 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 10.0 5.2 15.6 11.2 3.0 +--------------------------+ | 7 . Profession | | CADR - cadre 1.37 5.08 | 0.87 -0.58 0.76 -0.42 -0.77 | 4.1 2.7 5.5 1.9 7.4 | 0.15 0.07 0.11 0.04 0.12 | | EMPL - employé 4.22 0.97 | 0.03 0.05 -0.29 0.51 0.08 | 0.0 0.1 2.5 8.6 0.3 | 0.00 0.00 0.08 0.27 0.01 | | AUTR - autre 2.74 2.04 | -0.48 0.22 0.06 -0.58 0.26 | 2.5 0.7 0.1 7.1 1.7 | 0.11 0.02 0.00 0.16 0.03 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 6.6 3.5 8.1 17.6 9.4 +--------------------------+ | 8 . Moyenne en cours | | ENC1 - moins de 2KF encours 1.75 3.78 | -0.68 -1.32 0.20 0.21 0.07 | 3.2 17.9 0.5 0.6 0.1 | 0.12 0.46 0.01 0.01 0.00 | | ENC2 - de 2 à 5 KF encours 5.48 0.52 | -0.08 0.56 0.19 0.16 -0.03 | 0.1 10.2 1.5 1.0 0.1 | 0.01 0.61 0.07 0.05 0.00 | | ENC3 - plus de 5 KF encours 1.10 6.55 | 1.46 -0.70 -1.28 -1.11 0.06 | 9.3 3.2 12.8 10.5 0.0 | 0.33 0.08 0.25 0.19 0.00 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 12.6 31.3 14.8 12.1 0.2 +--------------------------+ | 9 . Moyenne des mouvements | | MOU1 - moins 10 KF mouvt 2.74 2.04 | -0.76 0.15 0.09 -0.53 0.17 | 6.2 0.3 0.1 5.9 0.7 | 0.28 0.01 0.00 0.14 0.01 | | MOU2 - de 10 à 30KF mouvt 1.26 5.59 | -0.35 0.27 -0.35 0.43 -0.77 | 0.6 0.5 1.1 1.8 6.8 | 0.02 0.01 0.02 0.03 0.10 | | MOU3 - de 30 à 50KF mouvt 2.30 2.63 | 0.34 0.08 -0.07 0.60 0.60 | 1.0 0.1 0.1 6.4 7.6 | 0.04 0.00 0.00 0.14 0.14 | | MOU4 - plus de 50KF mouvt 2.03 3.11 | 0.86 -0.46 0.18 -0.24 -0.43 | 6.0 2.5 0.5 0.9 3.4 | 0.24 0.07 0.01 0.02 0.06 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 13.8 3.5 1.8 15.0 18.6 +--------------------------+ | 10 . Cumul des débits | | DEB1 - moins de 40 débits 3.04 1.74 | 0.21 0.74 0.17 -0.27 -0.14 | 0.5 9.8 0.6 1.7 0.6 | 0.03 0.31 0.02 0.04 0.01 | | DEB2 - de 40 à 100 débits 2.87 1.91 | 0.09 0.22 -0.15 0.26 0.07 | 0.1 0.8 0.4 1.5 0.1 | 0.00 0.03 0.01 0.03 0.00 | | DEB3 - plus de 100 débits 2.42 2.44 | -0.37 -1.19 -0.04 0.04 0.10 | 1.3 20.2 0.0 0.0 0.2 | 0.06 0.58 0.00 0.00 0.00 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 1.9 30.8 1.1 3.2 0.9 +--------------------------+ | 11 . Autorisation de découvert | | Doui - découvert autorisé 3.60 1.32 | -0.31 -0.46 -0.17 0.37 0.06 | 1.3 4.5 0.8 3.7 0.1 | 0.07 0.16 0.02 0.10 0.00 | | Dnon - découvert interdit 4.74 0.76 | 0.23 0.35 0.13 -0.28 -0.05 | 1.0 3.4 0.6 2.8 0.1 | 0.07 0.16 0.02 0.10 0.00 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 2.3 7.8 1.4 6.5 0.2 +--------------------------+ | 12 . Interdiction de chéquier | | Coui - chéquier autorisé 7.39 0.13 | 0.13 0.07 0.02 -0.08 0.04 | 0.5 0.2 0.0 0.3 0.1 | 0.13 0.04 0.00 0.05 0.01 | | Cnon - chéquier interdit 0.94 7.83 | -1.02 -0.53 -0.15 0.61 -0.33 | 3.9 1.5 0.1 2.7 1.0 | 0.13 0.04 0.00 0.05 0.01 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 4.4 1.7 0.2 3.0 1.1 +--------------------------+

• Coordenadas y valores-test de las variables categóricas COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES MODALITES ACTIVES AXES 1 A 5 +------------------------------------------+-------------------------------+--------------------------+--------------------------+ | MODALITES | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES | |------------------------------------------+-------------------------------+--------------------------+--------------------------| | IDEN - LIBELLE P.REL DISTO | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 | +------------------------------------------+-------------------------------+--------------------------+--------------------------+ | 1 . Type de client | | BON - bon client 4.22 0.97 | 0.67 0.31 -0.09 0.16 -0.01 | 7.4 2.4 0.3 0.8 0.0 | 0.46 0.10 0.01 0.02 0.00 | | MAUV - mauvais client 4.11 1.03 | -0.68 -0.32 0.09 -0.16 0.01 | 7.6 2.5 0.3 0.8 0.0 | 0.46 0.10 0.01 0.02 0.00 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 15.0 4.8 0.5 1.6 0.0 +--------------------------+ | 2 . Age du client | | AGE1 - moins de 23 ans 1.57 4.32 | -0.81 0.48 -0.52 -0.52 -0.63 | 4.0 2.1 2.9 3.3 5.8 | 0.15 0.05 0.06 0.06 0.09 | | AGE2 - de 23 à 40 ans 2.67 2.12 | -0.17 -0.07 -0.55 0.42 -0.06 | 0.3 0.1 5.8 3.6 0.1 | 0.01 0.00 0.14 0.08 0.00 | | AGE3 - de 40 à 50 ans 2.17 2.84 | 0.20 -0.01 0.19 -0.23 1.10 | 0.4 0.0 0.6 0.9 24.4 | 0.01 0.00 0.01 0.02 0.43 | | AGE4 - plus de 50 ans 1.92 3.33 | 0.66 -0.29 0.97 0.11 -0.65 | 3.3 0.9 12.8 0.2 7.4 | 0.13 0.02 0.28 0.00 0.13 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 8.0 3.1 22.1 8.1 37.7 +--------------------------+ | 3 . Situation familiale | | CELB - célibataire 3.03 1.75 | -0.51 0.27 -0.60 0.02 -0.39 | 3.0 1.3 7.6 0.0 4.3 | 0.15 0.04 0.20 0.00 0.09 | | MARI - marié 3.94 1.12 | 0.41 -0.09 0.24 0.07 0.36 | 2.6 0.2 1.7 0.2 4.8 | 0.15 0.01 0.05 0.00 0.12 | | DIVO - divorcé 1.09 6.67 | 0.00 -0.15 0.25 -0.31 0.26 | 0.0 0.1 0.5 0.8 0.7 | 0.00 0.00 0.01 0.01 0.01 | | VEUF - veuf 0.28 28.25 | -0.24 -1.06 2.02 -0.03 -1.83 | 0.1 1.9 8.2 0.0 8.8 | 0.00 0.04 0.14 0.00 0.12 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 5.7 3.6 17.9 1.0 18.5 +--------------------------+ | 4 . Ancienneté | | ANC1 - anc. 1 an ou moins 3.54 1.35 | -0.48 0.24 0.13 -0.55 0.14 | 3.3 1.2 0.4 8.3 0.6 | 0.17 0.04 0.01 0.22 0.01 | | ANC2 - anc. de 1 à 4 ans 0.84 8.96 | -0.38 -0.42 -0.27 0.27 0.34 | 0.5 0.9 0.4 0.5 0.9 | 0.02 0.02 0.01 0.01 0.01 | | ANC3 - anc. de 4 à 6 ans 1.23 5.78 | -0.08 0.03 -0.38 0.63 -0.01 | 0.0 0.0 1.2 3.8 0.0 | 0.00 0.00 0.02 0.07 0.00 | | ANC4 - anc. de 6 à 12 ans 1.18 6.09 | 0.52 -0.04 -0.90 0.43 -0.87 | 1.3 0.0 6.7 1.7 8.2 | 0.04 0.00 0.13 0.03 0.12 | | ANC5 - anc. plus 12 ans 1.55 4.38 | 0.98 -0.31 0.83 0.28 0.17 | 5.9 0.9 7.5 1.0 0.4 | 0.22 0.02 0.16 0.02 0.01 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 10.9 3.0 16.3 15.3 10.1 +--------------------------+ | 5 . Domiciliation du salaire | | Soui - domicile salaire 5.63 0.48 | 0.36 0.13 -0.05 0.20 0.05 | 2.9 0.5 0.1 1.8 0.1 | 0.27 0.03 0.01 0.08 0.00 | | Snon - non dimicile salaire 2.71 2.08 | -0.75 -0.26 0.11 -0.42 -0.09 | 6.0 1.1 0.2 3.7 0.2 | 0.27 0.03 0.01 0.08 0.00 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 8.8 1.6 0.3 5.4 0.3 +--------------------------+ | 6 . Domiciliation de l'épargne | | EPA0 - pas d'épargne 6.62 0.26 | -0.24 0.16 0.23 0.16 -0.06 | 1.5 1.0 2.5 1.4 0.2 | 0.23 0.10 0.20 0.11 0.01 | | EPA1 - moins de 10KF épargn 1.07 6.80 | 0.46 -0.47 -0.47 -0.19 0.50 | 0.9 1.4 1.7 0.3 2.4 | 0.03 0.03 0.03 0.01 0.04 | | EPA2 - de 10 à 100KF épargn 0.64 12.00 | 1.74 -0.86 -1.59 -1.39 -0.25 | 7.6 2.8 11.5 9.5 0.4 | 0.25 0.06 0.21 0.16 0.01 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 10.0 5.2 15.6 11.2 3.0 +--------------------------+ | 7 . Profession | | CADR - cadre 1.37 5.08 | 0.87 -0.58 0.76 -0.42 -0.77 | 4.1 2.7 5.5 1.9 7.4 | 0.15 0.07 0.11 0.04 0.12 | | EMPL - employé 4.22 0.97 | 0.03 0.05 -0.29 0.51 0.08 | 0.0 0.1 2.5 8.6 0.3 | 0.00 0.00 0.08 0.27 0.01 | | AUTR - autre 2.74 2.04 | -0.48 0.22 0.06 -0.58 0.26 | 2.5 0.7 0.1 7.1 1.7 | 0.11 0.02 0.00 0.16 0.03 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 6.6 3.5 8.1 17.6 9.4 +--------------------------+ | 8 . Moyenne en cours | | ENC1 - moins de 2KF encours 1.75 3.78 | -0.68 -1.32 0.20 0.21 0.07 | 3.2 17.9 0.5 0.6 0.1 | 0.12 0.46 0.01 0.01 0.00 | | ENC2 - de 2 à 5 KF encours 5.48 0.52 | -0.08 0.56 0.19 0.16 -0.03 | 0.1 10.2 1.5 1.0 0.1 | 0.01 0.61 0.07 0.05 0.00 | | ENC3 - plus de 5 KF encours 1.10 6.55 | 1.46 -0.70 -1.28 -1.11 0.06 | 9.3 3.2 12.8 10.5 0.0 | 0.33 0.08 0.25 0.19 0.00 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 12.6 31.3 14.8 12.1 0.2 +--------------------------+ | 9 . Moyenne des mouvements | | MOU1 - moins 10 KF mouvt 2.74 2.04 | -0.76 0.15 0.09 -0.53 0.17 | 6.2 0.3 0.1 5.9 0.7 | 0.28 0.01 0.00 0.14 0.01 | | MOU2 - de 10 à 30KF mouvt 1.26 5.59 | -0.35 0.27 -0.35 0.43 -0.77 | 0.6 0.5 1.1 1.8 6.8 | 0.02 0.01 0.02 0.03 0.10 | | MOU3 - de 30 à 50KF mouvt 2.30 2.63 | 0.34 0.08 -0.07 0.60 0.60 | 1.0 0.1 0.1 6.4 7.6 | 0.04 0.00 0.00 0.14 0.14 | | MOU4 - plus de 50KF mouvt 2.03 3.11 | 0.86 -0.46 0.18 -0.24 -0.43 | 6.0 2.5 0.5 0.9 3.4 | 0.24 0.07 0.01 0.02 0.06 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 13.8 3.5 1.8 15.0 18.6 +--------------------------+ | 10 . Cumul des débits | | DEB1 - moins de 40 débits 3.04 1.74 | 0.21 0.74 0.17 -0.27 -0.14 | 0.5 9.8 0.6 1.7 0.6 | 0.03 0.31 0.02 0.04 0.01 | | DEB2 - de 40 à 100 débits 2.87 1.91 | 0.09 0.22 -0.15 0.26 0.07 | 0.1 0.8 0.4 1.5 0.1 | 0.00 0.03 0.01 0.03 0.00 | | DEB3 - plus de 100 débits 2.42 2.44 | -0.37 -1.19 -0.04 0.04 0.10 | 1.3 20.2 0.0 0.0 0.2 | 0.06 0.58 0.00 0.00 0.00 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 1.9 30.8 1.1 3.2 0.9 +--------------------------+ | 11 . Autorisation de découvert | | Doui - découvert autorisé 3.60 1.32 | -0.31 -0.46 -0.17 0.37 0.06 | 1.3 4.5 0.8 3.7 0.1 | 0.07 0.16 0.02 0.10 0.00 | | Dnon - découvert interdit 4.74 0.76 | 0.23 0.35 0.13 -0.28 -0.05 | 1.0 3.4 0.6 2.8 0.1 | 0.07 0.16 0.02 0.10 0.00 |

Análisis factoriales con SPAD 53

Page 54: Manual de introducción a los métodos factoriales y clasificación con

+------------------------------------------+--------- CONTRIBUTION CUMULEE = 2.3 7.8 1.4 6.5 0.2 +--------------------------+ | 12 . Interdiction de chéquier | | Coui - chéquier autorisé 7.39 0.13 | 0.13 0.07 0.02 -0.08 0.04 | 0.5 0.2 0.0 0.3 0.1 | 0.13 0.04 0.00 0.05 0.01 | | Cnon - chéquier interdit 0.94 7.83 | -1.02 -0.53 -0.15 0.61 -0.33 | 3.9 1.5 0.1 2.7 1.0 | 0.13 0.04 0.00 0.05 0.01 | +------------------------------------------+--------- CONTRIBUTION CUMULEE = 4.4 1.7 0.2 3.0 1.1 +--------------------------+

• Gráficos factoriales. En este ejemplo no resulta muy apropiado realizar un gráfico

factorial, debido a la poca inercia conservada. La mayoría de análisis de correspondencias múltiples suelen acompañarse de una clasificación de los individuos (véase apartado 6).

Análisis factoriales con SPAD 54

Page 55: Manual de introducción a los métodos factoriales y clasificación con

6 Métodos de clasificación La clasificación en SPAD se realiza a partir de las coordenadas de los ejes factoriales. Se suele utilizar el subconjunto de los primeros k ejes factoriales tales que proyecten en conjunto un mínimo del 80% de la inercial original. Este procedimiento se realiza aplicando sobre los datos dos algoritmos: algoritmo de clasificación jerárquica, con el objetivo de escoger en cuantos grupos deben clasificarse los individuos y el algoritmo de centros móviles, con el objetivo de mejorar la clasificación. Ejemplo 8 Retomaremos la filière del ejemplo 7 para realizar una clasificación de los clientes del banco según sean sus características. De la ventana Méthodes Classification arrastaremos el método RECIP/SEMIS.

En la parametrización del método indicaremos que deseamos clasificar los individuos a partir de los primero 16 ejes factoriales.

Análisis factoriales con SPAD 55

Page 56: Manual de introducción a los métodos factoriales y clasificación con

Dejaremos el resto de parámetros con sus valores por defecto. Ejecutamos la filière i obtenemos:

En el icono Listage, obtendremos un histograma de los indices de nivel: CLASSIFICATION HIERARCHIQUE (VOISINS RECIPROQUES) SUR LES 10 PREMIERS AXES FACTORIELS DESCRIPTION DES 50 NOEUDS D'INDICES LES PLUS ELEVES NUM. AINE BENJ EFF. POIDS INDICE HISTOGRAMME DES INDICES DE NIVEAU 886 849 855 8 8.00 0.00415 *** 887 818 800 10 10.00 0.00418 *** 888 808 857 12 12.00 0.00424 *** 889 866 804 10 10.00 0.00441 ***

Análisis factoriales con SPAD 56

Page 57: Manual de introducción a los métodos factoriales y clasificación con

890 867 739 16 16.00 0.00467 *** 891 874 863 18 18.00 0.00473 *** 892 875 838 19 19.00 0.00477 *** 893 879 851 19 19.00 0.00477 *** 894 886 829 13 13.00 0.00483 *** 895 884 843 14 14.00 0.00485 *** 896 796 819 26 26.00 0.00498 *** 897 873 834 31 31.00 0.00508 *** 898 882 862 13 13.00 0.00514 *** 899 842 832 16 16.00 0.00540 **** 900 839 892 32 32.00 0.00587 **** 901 869 836 11 11.00 0.00596 **** 902 890 732 22 22.00 0.00606 **** 903 881 856 20 20.00 0.00627 **** 904 876 861 22 22.00 0.00651 **** 905 825 887 14 14.00 0.00671 **** 906 880 872 24 24.00 0.00693 ***** 907 888 786 16 16.00 0.00710 ***** 908 870 798 12 12.00 0.00768 ***** 909 823 900 39 39.00 0.00807 ***** 910 904 805 29 29.00 0.00841 ***** 911 908 895 26 26.00 0.00854 ***** 912 868 864 36 36.00 0.00860 ****** 913 858 859 27 27.00 0.00924 ****** 914 902 896 48 48.00 0.00944 ****** 915 889 891 28 28.00 0.00969 ****** 916 911 905 40 40.00 0.01108 ******* 917 913 883 43 43.00 0.01204 ******** 918 910 901 40 40.00 0.01259 ******** 919 903 907 36 36.00 0.01294 ******** 920 893 899 35 35.00 0.01422 ********* 921 918 877 51 51.00 0.01514 ********* 922 885 917 64 64.00 0.01516 ********* 923 850 894 23 23.00 0.01683 ********** 924 906 922 88 88.00 0.01932 ************ 925 912 897 67 67.00 0.02059 ************ 926 915 923 51 51.00 0.02408 *************** 927 921 920 86 86.00 0.03601 ********************* 928 925 909 106 106.00 0.04002 ************************ 929 924 928 194 194.00 0.04372 ************************** 930 914 926 99 99.00 0.04393 ************************** 931 927 898 99 99.00 0.05132 ****************************** 932 916 929 234 234.00 0.05836 *********************************** 933 930 931 198 198.00 0.07475 ******************************************** 934 933 932 432 432.00 0.11267 ****************************************************************** 935 919 934 468 468.00 0.13731 *********************************************************************************

Parece sensato realizar una partición de los individuos en 3 o bien en 10 grupos. En el icono gráfico podemos visualizar y editar el dendograma.

Análisis factoriales con SPAD 57

Page 58: Manual de introducción a los métodos factoriales y clasificación con

Classification hierarchique directe

838

875

839

823

834

873

864

868

883

859

858

885

872

880

800

818

825

843

884

798

870

862

882

832

842

851

879

877

836

869

805

861

876

829

886

850

863

874

804

866

819

796

732

739

867

786

857

808

856

881

8%

50%

42%

3

3%

8%

10%

9%

8%

7%

11%

19%

14%

11%

10

Análisis factoriales con SPAD 58

Page 59: Manual de introducción a los métodos factoriales y clasificación con

Una vez hemos decidido que deseamos clasificar los clientes en tres grupos, arrastramos el método PARTI-DECLA.

En la parametrización indicaremos el número de clases elegido:

También indicaremos que deseamos que nos indique en que grupo se ha situado cada uno de los individuos.

Análisis factoriales con SPAD 59

Page 60: Manual de introducción a los métodos factoriales y clasificación con

Dejaremos el resto de parámetros con sus valores por defecto. Ejecutamos la filière i obtendremos, en el icono Listage: • Descomposición de la inercia en los grupos. Número de individuos classificados a cada

grupo antes y después de aplicar el algoritmo de centros móviles. DECOMPOSITION DE L'INERTIE CALCULEE SUR 10 AXES. +----------------+-----------------+-------------+-------------------+-----------------+ | | INERTIES | EFFECTIFS | POIDS | DISTANCES | | INERTIES | AVANT APRES | AVANT APRES | AVANT APRES | AVANT APRES | +----------------+-----------------+-------------+-------------------+-----------------+ | | | | | | | INTER-CLASSES | 0.2500 0.3012 | | | | | | | | | | | INTRA-CLASSE | | | | | | | | | | | | CLASSE 1 / 3 | 0.4575 0.3760 | 234 201 | 234.00 201.00 | 0.0945 0.1528 | | CLASSE 2 / 3 | 0.5054 0.4429 | 198 203 | 198.00 203.00 | 0.1796 0.2278 | | CLASSE 3 / 3 | 0.0605 0.1532 | 36 64 | 36.00 64.00 | 1.6477 1.0005 | | | | | | | | TOTALE | 1.2734 1.2734 | | | | +----------------+-----------------+-------------+-------------------+-----------------+ QUOTIENT (INERTIE INTER / INERTIE TOTALE) : AVANT ... 0.1963 APRES ... 0.2366 COORDONNEES ET VALEURS-TEST APRES CONSOLIDATION

• Individuos que integran cada una de las clases COMPOSITION DE: Coupure 'a' de l'arbre en 3 classes CLASSE 1 / 3 0005 0011 0030 0036 0042 0048 0060 0066 0072 0084 0096 0102 0115 0128 0134 0158 0170 0176 0182 0188 0200 0224 0236 0249 0255 0261 0267 0279 0297 0309 0321 0327 0339 0345 0351 0376 0388 0394 0400 0412 0418 0424 0430 0448 0454 0466 0472 0484 0490 0502 0520 0526 0532 0568 0574 0580 0599 0605 0611 0623 0630 0636 0642 0648 0654 0673 0679 0685 0691 0697 0703 0710 0722 0728 0740 0746 0752 0764 0770 0776 0782 0788 0800 0813 0819 0825 0831 0843 0867 0873 0879 0899 0910 0916 0923 0929 0935 0947 0959 0965 0971 0977 0983 0990 1002 1014 1033 1039 1045 1069 1076 1088 1112 1130 1144 1198 1204 1223 1229 1235 1241 1247 1259 1271 1277 1283 1289 1308 1322 1328 1334 1340 1346 1353 1365 1372 1379 1385 1391 1397 1403 1427 1440 1446 1452 1458 1476 1488 1500 1512 1531 1537 1561 1568 1575 1581 1617 1623 1629 1655 1661 1667 1673 1679 1697

Análisis factoriales con SPAD 60

Page 61: Manual de introducción a los métodos factoriales y clasificación con

1703 1709 1715 1721 1757 1763 1769 1788 1794 1800 1806 1813 1820 1826 1838 1850 1880 0084 0102 0230 0243 0249 0424 0496 0544 0556 0599 0703 0740 0782 0794 0813 0855 0899 0923 0929 CLASSE 2 / 3 0018 0054 0078 0109 0140 0152 0164 0291 0315 0382 0478 0538 0544 0550 0556 0562 0586 0617 0666 0758 0806 0861 0891 0905 0953 0996 1020 1027 1051 1057 1063 1094 1106 1137 1150 1156 1180 1186 1211 1217 1265 1295 1409 1421 1464 1494 1506 1518 1525 1543 1549 1555 1593 1599 1605 1611 1635 1649 1685 1691 1733 1739 1745 1751 1775 1856 1862 1868 1874 1886 1892 1898 1904 1910 1916 1922 0005 0011 0018 0024 0030 0036 0042 0048 0054 0060 0066 0078 0090 0096 0109 0115 0121 0128 0134 0140 0146 0152 0158 0164 0170 0176 0182 0188 0194 0200 0212 0218 0224 0236 0255 0261 0267 0273 0279 0285 0291 0297 0303 0309 0315 0321 0327 0333 0339 0345 0351 0357 0363 0369 0376 0382 0388 0394 0400 0406 0412 0418 0430 0436 0442 0448 0454 0460 0466 0472 0484 0490 0502 0507 0514 0520 0526 0538 0550 0562 0568 0574 0580 0586 0592 0605 0611 0617 0623 0630 0636 0642 0654 0660 0666 0673 0679 0691 0697 0710 0716 0722 0728 0734 0746 0758 0764 0770 0776 0788 0800 0806 0819 0825 0831 0837 0843 0849 0861 0867 0873 0879 0885 0891 0905 0910 0916 CLASSE 3 / 3 0024 0090 0121 0146 0194 0207 0212 0218 0230 0243 0273 0285 0303 0333 0357 0363 0369 0406 0436 0442 0460 0496 0507 0514 0592 0660 0716 0734 0794 0837 0849 0855 0885 0941 1008 1082 1100 1118 1124 1162 1168 1174 1192 1253 1301 1314 1359 1415 1434 1470 1482 1587 1643 1727 1782 1832 1844 0072 0207 0478 0532 0648 0685 0752

• Caracterización de las clases. DESCRIPTION DE PARTITION(S) DESCRIPTION DE LA Coupure 'a' de l'arbre en 3 classes CARACTERISATION DES CLASSES PAR LES MODALITES CARACTERISATION PAR LES MODALITES DES CLASSES OU MODALITES DE Coupure 'a' de l'arbre en 3 classes CLASSE 1 / 3 ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 42.95 CLASSE 1 / 3 aa1a 201 12.70 0.000 70.89 83.58 50.64 bon client Type de client BON 237 10.18 0.000 59.09 90.55 65.81 de 2 à 5 KF encours Moyenne en cours ENC2 308 10.05 0.000 58.23 91.54 67.52 domicile salaire Domiciliation du salaire Soui 316 5.80 0.000 71.26 30.85 18.59 anc. plus 12 ans Ancienneté ANC5 87 5.62 0.000 49.46 91.04 79.06 pas d'épargne Domiciliation de l'épargne EPA0 370 5.45 0.000 63.57 40.80 27.56 de 30 à 50KF mouvt Moyenne des mouvements MOU3 129 4.76 0.000 46.75 96.52 88.68 chéquier autorisé Interdiction de chéquier Coui 415 4.27 0.000 56.14 47.76 36.54 moins de 40 débits Cumul des débits DEB1 171 4.23 0.000 53.39 58.71 47.22 marié Situation familiale MARI 221 3.88 0.000 51.90 61.19 50.64 employé Profession EMPL 237 3.78 0.000 59.26 31.84 23.08 plus de 50 ans Age du client AGE4 108 2.44 0.007 57.58 18.91 14.10 anc. de 6 à 12 ans Ancienneté ANC4 66 -2.44 0.007 35.29 29.85 36.32 célibataire Situation familiale CELB 170 -3.99 0.000 23.86 10.45 18.80 moins de 23 ans Age du client AGE1 88 -4.76 0.000 13.21 3.48 11.32 chéquier interdit Interdiction de chéquier Cnon 53 -4.97 0.000 26.62 20.40 32.91 autre Profession AUTR 154 -5.37 0.000 19.39 9.45 20.94 moins de 2KF encours Moyenne en cours ENC1 98 -5.68 0.000 0.00 0.00 6.84 de 10 à 100KF épargn Domiciliation de l'épargne EPA2 32 -6.50 0.000 25.63 25.37 42.52 anc. 1 an ou moins Ancienneté ANC1 199 -7.22 0.000 17.65 11.94 29.06 plus de 100 débits Cumul des débits DEB3 136 -7.72 0.000 18.18 13.93 32.91 moins 10 KF mouvt Moyenne des mouvements MOU1 154 -8.40 0.000 0.00 0.00 13.25 plus de 5 KF encours Moyenne en cours ENC3 62 -10.05 0.000 11.18 8.46 32.48 non dimicile salaire Domiciliation du salaire Snon 152 -12.70 0.000 14.29 16.42 49.36 mauvais client Type de client MAUV 231 ---------------------------------------------------------------------------------------------------------------------------------- CLASSE 2 / 3 ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 43.38 CLASSE 2 / 3 aa2a 203 16.92 0.000 80.52 91.63 49.36 mauvais client Type de client MAUV 231 11.72 0.000 81.58 61.08 32.48 non dimicile salaire Domiciliation du salaire Snon 152 10.63 0.000 77.92 59.11 32.91 moins 10 KF mouvt Moyenne des mouvements MOU1 154 8.80 0.000 66.83 65.52 42.52 anc. 1 an ou moins Ancienneté ANC1 199 7.88 0.000 78.57 37.93 20.94 moins de 2KF encours Moyenne en cours ENC1 98 6.80 0.000 86.79 22.66 11.32 chéquier interdit Interdiction de chéquier Cnon 53 6.71 0.000 65.58 49.75 32.91 autre Profession AUTR 154 6.48 0.000 66.91 44.83 29.06 plus de 100 débits Cumul des débits DEB3 136 6.22 0.000 50.54 92.12 79.06 pas d'épargne Domiciliation de l'épargne EPA0 370 5.09 0.000 68.18 29.56 18.80 moins de 23 ans Age du client AGE1 88 3.83 0.000 55.29 46.31 36.32 célibataire Situation familiale CELB 170 3.18 0.001 51.98 51.72 43.16 découvert autorisé Autorisation de découvert Doui 202 2.34 0.010 75.00 5.91 3.42 veuf Situation familiale VEUF 16 -2.43 0.008 35.40 28.08 34.40 de 40 à 100 débits Cumul des débits DEB2 161 -2.49 0.006 27.59 7.88 12.39 moins de 10KF épargn Domiciliation de l'épargne EPA1 58 -3.18 0.001 36.84 48.28 56.84 découvert interdit Autorisation de découvert Dnon 266 -3.42 0.000 35.44 41.38 50.64 employé Profession EMPL 237 -3.64 0.000 32.16 27.09 36.54 moins de 40 débits Cumul des débits DEB1 171 -3.84 0.000 23.38 8.87 16.45 cadre Profession CADR 77 -4.37 0.000 25.00 13.30 23.08 plus de 50 ans Age du client AGE4 108 -4.80 0.000 16.67 5.42 14.10 anc. de 6 à 12 ans Ancienneté ANC4 66 -5.14 0.000 30.77 33.50 47.22 marié Situation familiale MARI 221 -5.72 0.000 0.00 0.00 6.84 de 10 à 100KF épargn Domiciliation de l'épargne EPA2 32 -5.88 0.000 21.71 13.79 27.56 de 30 à 50KF mouvt Moyenne des mouvements MOU3 129 -6.05 0.000 19.30 10.84 24.36 plus de 50KF mouvt Moyenne des mouvements MOU4 114 -6.80 0.000 37.83 77.34 88.68 chéquier autorisé Interdiction de chéquier Coui 415 -7.84 0.000 8.05 3.45 18.59 anc. plus 12 ans Ancienneté ANC5 87 -7.96 0.000 1.61 0.49 13.25 plus de 5 KF encours Moyenne en cours ENC3 62 -11.71 0.000 25.00 38.92 67.52 domicile salaire Domiciliation du salaire Soui 316 -16.92 0.000 7.17 8.37 50.64 bon client Type de client BON 237 ---------------------------------------------------------------------------------------------------------------------------------- CLASSE 3 / 3 ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 13.68 CLASSE 3 / 3 aa3a 64 17.84 0.000 98.39 95.31 13.25 plus de 5 KF encours Moyenne en cours ENC3 62 11.72 0.000 100.00 50.00 6.84 de 10 à 100KF épargn Domiciliation de l'épargne EPA2 32 5.58 0.000 41.38 37.50 12.39 moins de 10KF épargn Domiciliation de l'épargne EPA1 58 5.54 0.000 30.70 54.69 24.36 plus de 50KF mouvt Moyenne des mouvements MOU4 114 5.30 0.000 21.94 81.25 50.64 bon client Type de client BON 237 3.69 0.000 28.57 34.38 16.45 cadre Profession CADR 77 3.50 0.000 15.42 100.00 88.68 chéquier autorisé Interdiction de chéquier Coui 415 2.78 0.003 16.77 82.81 67.52 domicile salaire Domiciliation du salaire Soui 316

Análisis factoriales con SPAD 61

Page 62: Manual de introducción a los métodos factoriales y clasificación con

2.72 0.003 25.76 26.56 14.10 anc. de 6 à 12 ans Ancienneté ANC4 66 -2.53 0.006 7.79 18.75 32.91 autre Profession AUTR 154 -2.78 0.003 7.24 17.19 32.48 non dimicile salaire Domiciliation du salaire Snon 152 -3.27 0.001 7.54 23.44 42.52 anc. 1 an ou moins Ancienneté ANC1 199 -3.50 0.000 0.00 0.00 11.32 chéquier interdit Interdiction de chéquier Cnon 53 -4.13 0.000 2.04 3.13 20.94 moins de 2KF encours Moyenne en cours ENC1 98 -4.53 0.000 3.90 9.38 32.91 moins 10 KF mouvt Moyenne des mouvements MOU1 154 -5.30 0.000 5.19 18.75 49.36 mauvais client Type de client MAUV 231 -11.85 0.000 0.32 1.56 65.81 de 2 à 5 KF encours Moyenne en cours ENC2 308 -15.44 0.000 0.00 0.00 79.06 pas d'épargne Domiciliation de l'épargne EPA0 370 ----------------------------------------------------------------------------------------------------------------------------------

Análisis factoriales con SPAD 62

Page 63: Manual de introducción a los métodos factoriales y clasificación con

7 Casos propuestos 7.1 Estudio de la relación calidad-precio para 35 marcas de

whisky (ACP) Objetivo: Analizar la relación calidad-precio para marcas de whisky. Datos:

Precio Proporción de malta Categoría Vejez Apreciación

10,67 20 1 5,0 3 9,15 20 1 5,0 2 9,91 20 1 7,5 2

11,28 25 1 12,0 2 10,67 25 1 12,0 3 11,13 30 1 5,0 0 10,67 30 1 8,0 0

8,39 30 1 5,0 2 11,74 30 1 5,5 0 14,18 30 1 12,0 0 12,50 30 1 12,0 2 11,13 33 2 6,5 1

9,45 33 2 8,0 3 13,26 33 2 12,0 3 11,89 35 2 10,0 2 11,13 40 2 10,5 4 13,26 40 2 8,5 2 12,20 40 2 8,5 2 12,96 40 2 9,5 2 13,26 40 2 8,5 4 12,20 40 2 9,5 2 12,65 40 2 9,5 1 13,72 40 2 12,5 2 16,77 40 2 12,0 3 13,26 40 2 5,5 2 17,23 45 2 12,0 4 14,64 45 2 12,0 3 12,50 45 2 12,0 3 19,36 100 3 8,5 4 24,39 100 3 12,0 3 13,72 100 3 12,0 4 13,11 100 3 12,0 2 15,25 100 3 10,0 3 15,25 100 3 11,0 3 14,48 100 3 12,0 0

Análisis factoriales con SPAD 63

Page 64: Manual de introducción a los métodos factoriales y clasificación con

Las columnas representan: • El precio del litro de whisky en euros. • La proporción de malta en porcentaje • La categoría (1 lujo, 2 estándar, 3 puro malta) • La vejez en años • La apreciación que puede considerarse como una nota de 0 a 4 atribuida por un jurado

(0 mala, 1 mediocre, 2 buena, 4 muy buena)

Análisis factoriales con SPAD 64

Page 65: Manual de introducción a los métodos factoriales y clasificación con

7.2 Opinión de los estudiantes estadounidenses sobre la guerra del Vietnam (ACS)

Objetivo: En mayo de 1967, los responsables del periódico de los estudiantes de la Universidad de Chapel Hill (Carolina del Norte) desean conocer la opinión de los estudiantes sobre la guerra del Vietnam. Proponen a cada estudiante que designe la estrategia que sostiene, eligiendo entre las cuatro estrategias propuestas a continuación: • Estrategia A: Los EEUU deberían provocar la derrota del poder Norte Vietnamita con

bombardeos intensivos de sus industrias, puertos y aeropuertos y con una invasión terrestre.

• Estrategia B. Los EEUU deberían proseguir con su política actual en Vietnam. • Estrategia C. Los EEUU deberían reducir sus actividades militares, para el bombardeo

del Vietnam del Norte e intensificar sus esfuerzos para la abertura de negociaciones. • Estrategia D. Los EEUU deberían retirar inmediatamente sus fuerzas militares del

Vietnam. El sondeo se repitió durantes cinco años consecutivos, con un total de 3.147 estudiantes. Datos:

Sexo Estrategia Año 1 Año 2 Año 3 Año 4 Año 5 Total

Hombre A 175 160 132 145 118 730

B 116 126 120 95 176 633 C 131 135 154 185 345 950 D 17 21 29 44 141 252

Mujer A 13 5 22 12 19 71 B 19 9 29 21 27 105 C 40 33 110 58 128 369 D 5 3 6 10 13 37

Análisis factoriales con SPAD 65

Page 66: Manual de introducción a los métodos factoriales y clasificación con

7.3 Análisis cualitativo de razas de perros (ACM) Objetivo: Seleccionar las razas de perros más en acuerdo con la función que se le pide (compañía, casa o utilidad), a partir de calidades físicas y psíquicas de las razas. Realizar una clasificación de las razas según sus cualidades. Datos:

Raza Tamaño Peso Velocidad Inteligencia Afección Agresividad Función

Bass 1 1 1 1 1 2 2 Beau 3 2 3 2 2 2 3 Boxe 2 2 2 2 2 2 1 Buld 1 1 1 2 2 1 1 Bulm 3 3 1 3 1 2 3 Cani 1 1 2 3 2 1 1 Chih 1 1 1 1 2 1 1 Cock 2 1 1 2 2 2 1 Coll 3 2 3 2 2 1 1

Dalm 2 2 2 2 2 1 1 Dobe 3 2 3 3 1 2 3 Dogo 3 3 3 1 1 2 3 Foxh 3 2 3 1 1 2 2 Foxt 1 1 2 2 2 2 1 Galg 3 2 3 1 1 1 2 Gasc 3 2 2 1 1 2 2 Labr 2 2 2 2 2 1 2 Masa 3 2 3 3 2 2 3 Mast 3 3 1 1 1 2 3 Peki 1 1 1 1 2 1 1 Podb 2 2 2 3 2 1 2 Podf 3 2 2 2 1 1 2 Poin 3 2 3 3 1 1 2 Sett 3 2 3 2 1 1 2 Stbe 3 3 1 2 1 2 3 Teck 1 1 1 2 2 1 1 Tern 3 3 1 2 1 1 3

Análisis factoriales con SPAD 66

Page 67: Manual de introducción a los métodos factoriales y clasificación con

Los valores de las variables responden a las siguientes etiquetas:

Variable Valor 1 Valor 2 Valor 3

Tamaño pequeño mediano grande Peso pequeño mediano grande

Velocidad leve mediano grande Inteligencia leve mediano grande Afección leve grande

Agresividad leve Grande Función compañía caza utilidad

Análisis factoriales con SPAD 67

Page 68: Manual de introducción a los métodos factoriales y clasificación con

8 Bibliografía Aluja T, Morineau A. (1999) Aprender de los datos: el análisis de componentes principales. Una

aproximación desde el Data Mining. Ediciones Universitarias de Barcelona. Barcelona. Bécue M., Lebart L., Salem A. (2002) Análisis estadístico de datos textuales. Editorial Milenio.

Lleida. Bénzecri J. P. (1973) L’Analyse de donées. Tomo 1: La taxinomie. Tomo 2: L’Analyse de

Correspondances (2ª edición 1976). Dunod. París. Cuadras C.M. (1991) Métodos de análisis multivariante. 2ª edición. Promociones y

Publicaciones Universitarias. Barcelona. Crivisqui E., Fine J. (1994) Introducción al análisis de los datos multidimensionales. PRESTA -94. Escofier B., Pagès J. (1990) Análisis factoriales Simples y Múltiples. Servicio Editorial

Universidad del País Basco. Bilbao. Lebart L., Morineau A., Piron M. (1984) Multivariate Descriptive Statistical Analysis. John

Wiley. Nueva York. Morineau A. (1984) Note sur la caractérisation statistique d’une classe et les valeurs-test. Technique

du CESIA, 2, págs. 20-27. París.

Análisis factoriales con SPAD 68