anÁlisis discriminante técnica multivariante de clasificación de individuos en grupos...

22
ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o más grupos de objetos o individuos, de los que conocemos los valores de p variables. Objetivo: Explicar la pertenencia de cada individuo a un grupo (variable categórica) según la variable aleatoria p-dimensional del objeto (variable explicativa). Predecir a qué grupo pertenece un individuo nuevo, del que conocemos el valor de la variable p dimensional clasificadora o explicativa. Puede aplicarse para: Describir: Explicar la diferencia entre los distintos tipos de objetos. Hacer Inferencia: Contrastar diferencias significativas entre poblaciones. Tomar de decisiones: Decidir donde clasificar un objeto.

Upload: candelario-arena

Post on 02-Apr-2015

107 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

ANÁLISIS DISCRIMINANTETécnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o más grupos de objetos o individuos, de los que conocemos los valores de p variables.

Objetivo:

Explicar la pertenencia de cada individuo a un grupo (variable categórica) según la variable aleatoria p-dimensional del objeto (variable explicativa).Predecir a qué grupo pertenece un individuo nuevo, del que conocemos el valor de la variable p dimensional clasificadora o explicativa.

Puede aplicarse para:

Describir: Explicar la diferencia entre los distintos tipos de objetos.Hacer Inferencia: Contrastar diferencias significativas entre poblaciones.Tomar de decisiones: Decidir donde clasificar un objeto.

Page 2: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

SUPUESTOS

Existen K poblaciones o grupos G1, G2,....Gk.

Cada grupo está formado por n1, n2,...nk objetos: .

Sobre cada objeto han sido medidas p variables x1, x2,.xp,

Se quiere buscar una regla de decisión que permita asignar un objeto a uno de los grupos partiendo de la información anterior.

Los datos se presentan en matriz de n objetos pertenecientes a K grupos, medidos por una variable aleatoria p dimensional y una variable discreta que indica el grupo al que pertenece cada objeto.

ANÁLISIS DISCRIMINANTE

Page 3: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

CLASIFICACIÓN

ANÁLISIS DISCRIMINANTE

Funciones discriminantes lineales de Fisher:

Permiten diferenciar los grupos para el proceso de clasificación. Son combinación lineal de las P variables, interviniendo cada una con un peso diferente que indica las que más discriminan. Problema descriptivo.

Funciones discriminantes canónicas:

Sirven para la predicción óptima del grupo a que pertenece un individuo. Problema de inferencia.

MATRIZ DE DATOS G X1 X2 .... Xp 1 1 .... 2 2 3

DATOS

Page 4: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

CLASIFICACIÓN CON DOS GRUPOS Y UNA VARIABLE CLASIFICADORA, X

Problema:

Clasificar a cada individuo en el grupo correcto, según la variable clasificadora. Gráficamente, podríamos representar las hipotéticas funciones de frecuencias de la variable X para cada uno de los dos grupos. Las distribuciones de frecuencias y la varianza son iguales en los dos grupos, coincidiendo en todo menos en su media. Se pueden solapar: pueden haber errores de clasificación.

ANÁLISIS DISCRIMINANTE

C X e I e II

GRÁFICO 1

2

XXC:ntediscriminacortedePunto III

Page 5: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Criterios de clasificación

Si Xi < C, se clasifica al individuo i en el grupo I.

Xi > C, se clasifica la individuo i en el grupo II

Los errores de clasificación se encuentran en :

Área a la derecha de C : Casos del grupo I en los que Xi > C, es decir, son casos del grupo I mal clasificados en el grupo II.

Área a la izquierda de C : Casos del grupo II en los que Xi < C, es decir, son casos del grupo II mal clasificados en el grupo I.

ANÁLISIS DISCRIMINANTE

Page 6: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

CLASIFICACIÓN CON DOS O MÁS GRUPOS Y DOS

O MÁS VARIABLES CLASIFICADORAS Para dos grupos, desde el punto de vista factorial el objetivo es obtener una función lineal que separe lo mejor posible a los dos grupos.

Criterio:

Buscar el eje que separe lo más posible los centros de los grupos, de forma que los individuos de cada grupo sean lo más homogéneos posibles. Hay que maximizar la dispersión entre grupos respecto a la dispersión dentro de los grupos.

Generalizar a K grupos:

Habrá más de un eje discriminante. El objetivo es representar a los n individuos de K grupos predefinidos, en un espacio de dimensión reducida (ejes discriminantes) de forma que los grupos proyectados en ese espacio estén bien diferenciados.

ANÁLISIS DISCRIMINANTE

Page 7: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Obtención de las funciones discriminantes Criterio: Maximizar variabilidad entre grupos respecto a la de dentro de ellos.

Sea un eje definido por el vector unitario U, de dimensión p*1. La proyección del individuo i-ésimo sobre él es el peso zi:

Proyección de los n individuos: Vector Z (nx1), (Z=XU), función discriminante de Fisher. Es una combinación lineal de las k variables explicativas originales.

Problema:Obtener los coeficientes de ponderación uj.

Hay que tener en cuenta que :1.    La matriz a diagonalizar no es simétrica: los vectores propios no son

necesariamente ortogonales.2.    El número de variables o ejes discriminantes, F es como máximo el

mínimo de [(K-1), p].

ANÁLISIS DISCRIMINANTE

)1,2,.....n = (i x u = z ijj

p

1=ji

nn2211 uX......uXuXZ

Page 8: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Métodos iterativos de selección de variables

Método de inclusión iterativa En cada paso se selecciona la variable que más contribuye a la separación de los grupos. El proceso se detiene si ninguna variable separa los grupos significativamente más de lo que ya estaban.

Método de exclusión iterativaSe incluyen todas las variables y en cada paso se elimina la que menos contribuye a la separación de los grupos. El proceso se detiene cuando la exclusión de cualquiera de las variables hace disminuir significativamente la separación entre los grupos.

Método mixto de inclusión-exclusión: Stepwise En cada etapa se evalúa la posibilidad de incluir una nueva variable como la de excluir alguna de las presentes según criterios prefijados. Su aplicación requiere definir previamente una regla de decisión, Landa de Wilks, cociente entre el determinante de la matriz de variación dentro de los grupos y el de la matriz de variación total.

ANÁLISIS DISCRIMINANTE

Page 9: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Stepwise

Con el landa de Wilks se calcula un estadístico F. Cuanto mayor sea F, más significativa será la variable para la que se calcula. Hay que fijar:

F mínimo para entrar (F-min-to-enter).

F máximo para salir (Fmax-to-go) (F to enter > F de salida).

Nivel de tolerancia: Medida del grado de asociación lineal entre las variables clasificadoras.

Si la tolerancia de la variable i es muy pequeña, significa que dicha variable está muy correlacionada con el resto, lo que puede provocar problemas en la estimación. Generalmente, se fija un nivel mínimo de tolerancia.

ANÁLISIS DISCRIMINANTE

2ir- 1

Page 10: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Asignación de los individuos a cada grupo

La distancia de Mahalanobis D² es una medida generalizada de distancia entre dos grupos que tiene en cuenta la posición central (centro de gravedad) y las dispersiones (matrices de productos cruzados o de covarianzas intragrupos) de los grupos.

DI,II: matriz de productos cruzados (matriz de covarianzas intragrupos).

Se asignará cada individuo al grupo para el que D² es menor.

Función discriminante de Fisher. La diferencia es que la distancia de Mahalanobis se calcula en el espacio de las variables originales, y en el criterio de Fisher se sintetizan todas las variables en la función discriminante, que es la que realiza la clasificación.

ANÁLISIS DISCRIMINANTE

)xx(D)xx(D ji1II,Iji

2j,i

Page 11: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Cómo saber si los datos son apropiados Si las poblaciones son normales, pero con matrices de covarianzas distintas, la regla de clasificación óptima se obtiene con funciones lineales cuadráticas. Excepto en el caso de dos variables, las funciones cuadráticas son difíciles de obtener, por su complejidad analítica. Sin embargo, los resultados prácticos no suelen diferir sustancialmente. Conviene, no obstante, contrastar la igualdad de matrices de covarianzas.

Si Si las distribuciones de probabilidad poblacionales de los grupos son normales multivariantes con matrices de covarianzas iguales, y se fijan probabilidades a priori y costes idénticos para todos los grupos, la predicción con todas las funciones lineales discriminantes coincide con la clasificación óptima obtenida con la regla de decisión.

Cuando las poblaciones no son normales, las probabilidades o verosimilitud de la muestra no se conocen, al no conocer la forma de la distribución probabilística de cada grupo. En este caso, puede sustituirse el cociente de verosimilitudes por el de distancias de Mahalanobis. Si las poblaciones son normales, ambos coinciden.

ANÁLISIS DISCRIMINANTE

Page 12: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Caso: Situación de las Comunidades Autónomas españolasen cuanto a indicadores de bienestar

En el periódico “El País” del día 17 de enero de 2002 se publicó un resumen de un estudio incluido en el Anuario social de España 2001 de la Caixa, elaborado por la Universidad Autónoma de Madrid, sobre el mapa de bienestar de las provincias españolas para el año 2001, clasificándolas a partir de las 12 variables siguientes:

El estudio establece una clasificación según el bienestar de las provincias. Queremos hacer un estudio similar, pero considerando el mapa de las autonomías, para lo cual, obtuvimos los valores medios por Autonomía de las variables, incluido el bienestar. Con esta variable agrupamos las Autonomías en cuatro grupos según la puntuación obtenida de bienestar:

Grupo 1: 1-4,99

Grupo 2: 5-6,99

Grupo 3: 7-8,99

Grupo 4: 9-10

1 Riqueza 7 Condiciones de trabajo 2 Sanidad 8 Vivienda 3 Servicios sanitarios 9 Seguridad y medioambiente 4 Nivel de instrucción 10 Entorno y clima 5 Educación, cultura y ocio 11 Accesibilidad económico- comercial 6 Empleo 12 Convivencia y participación social

Page 13: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Objetivo y metodología del estudio

Objetivo:

Contrastar si la clasificación que realizamos de las Comunidades Autónomas españolas es correcta, dependiendo de las 12 variables consideradas.

Metodología:

La técnica adecuada es el Análisis Discriminante. En él, la variable grupo de bienestar es la variable dependiente, mientras que el resto son las variables independientes que, previsiblemente, discriminan.

Page 14: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Caso. ResultadosGrupos 1 2 3 4

Variables Media S N Media S N Media S N Media S N Riqueza 3,63 1,27 5 6,03 1,42 5 7,08 2,04 4 9,67 0,58 3 Sanidad 6,54 2,40 5 4,00 1,22 5 6,23 3,05 4 4,33 3,51 3 Serv. sanitarios 4,40 0,95 5 5,63 1,66 5 6,65 1,75 4 9,33 1,15 3 Nivel instrucción 4,02 0,48 5 5,50 0,87 5 8,38 0,75 4 8,67 1,15 3 Educa, cultura y ocio 3,96 0,75 5 6,37 1,53 5 7,17 1,67 4 8,33 2,08 3 Empleo 4,07 0,90 5 5,63 2,66 5 7,35 1,68 4 9,00 1,00 3 Condiciones trabajo 6,25 1,94 5 5,23 1,76 5 5,77 1,39 4 4,00 3,46 3 Vivienda 3,65 1,29 5 6,10 1,24 5 7,88 0,76 4 8,67 1,15 3 Seg. y m-ambiente 6,25 0,98 5 6,07 1,59 5 4,81 2,52 4 3,67 1,53 3 Entorno y clima 4,12 1,93 5 5,87 2,50 5 7,33 1,25 4 6,67 2,89 3 Acces. ec.comerc. 4,29 1,18 5 5,40 0,89 5 7,04 1,16 4 7,00 2,65 3 Conv.y partic.social 6,47 1,88 5 5,10 1,95 5 3,88 1,67 4 4,00 2,00 3

Total Media Desv.

típ. C.V.P. N

Riqueza 6,21 2,50 40,26 17 Sanidad 5,33 2,55 47,85 17 Serv. sanitarios 6,16 2,16 35,04 17 Nivel instrucción 6,30 2,11 33,57 17 Educa, cultura y ocio 6,20 2,11 34,04 17 Empleo 6,17 2,44 39,53 17 Condiciones trabajo 5,44 2,05 37,72 17 Vivienda 6,25 2,23 35,62 17 Seg. y m-ambiente 5,40 1,83 33,94 17 Entorno y clima 5,84 2,33 39,98 17 Acces. ec.comerc. 5,74 1,76 30,58 17 Conv.y partic.social 5,02 2,01 40,03 17

Page 15: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Caso. Resultados

Pruebas de igualdad de las medias de los grupos

Matrices intra-grupo combinadas

Matriz de covarianzas y, por tanto, de dispersiones. En ella, aunque no podemos medir el nivel de correlación existente entre las variables, podremos saber si existe dicha correlación y si es positiva o negativa.

Variables Lambda de Wilks F gl1 gl2 Sig. Riqueza ,277 11,324 3 13 ,001 Sanidad ,785 1,187 3 13 ,353 Serv. sanitarios ,355 7,858 3 13 ,003 Nivel instrucción ,116 33,065 3 13 ,000 Educa, cultura y ocio ,402 6,436 3 13 ,007 Empleo ,442 5,480 3 13 ,012 Condiciones trabajo ,849 ,771 3 13 ,531 Vivienda ,218 15,520 3 13 ,000 Seguridad y medio ambiente ,699 1,868 3 13 ,185 Entorno y clima ,703 1,828 3 13 ,192 Accesibilidad ec.comerc. ,542 3,656 3 13 ,041 Convivencia y partic.social ,707 1,794 3 13 ,198

Page 16: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Caso. Resultados

Matriz de correlaciones

Correlación 1 2 3 4 5 6 7 8 9 10 11 12 Riqueza 1,00 -0,40 0,16 -0,36 0,74 0,39 0,02 0,12 0,04 -0,19 -0,21 0,01

Sanidad -0,40 1,00 0,36 0,01 -0,12 -0,30 -0,17 0,11 -0,47 -0,10 -0,14 0,27

Serv. sanitarios 0,16 0,36 1,00 0,05 0,05 -0,48 0,07 -0,28 -0,25 0,13 0,17 -0,26

Nivel instrucción -0,36 0,01 0,05 1,00 -0,73 -0,06 0,44 0,07 -0,41 -0,17 0,69 -0,11

Educa, cultura y ocio 0,74 -0,12 0,05 -0,73 1,00 0,29 -0,43 0,12 0,21 0,16 -0,54 0,03

Empleo 0,39 -0,30 -0,48 -0,06 0,29 1,00 0,26 0,00 -0,07 -0,12 -0,30 0,16

Condiciones trabajo 0,02 -0,17 0,07 0,44 -0,43 0,26 1,00 -0,59 -0,12 -0,24 0,31 0,02

Vivienda 0,12 0,11 -0,28 0,07 0,12 0,00 -0,59 1,00 -0,20 -0,33 0,05 0,25

Seg. y m-ambiente 0,04 -0,47 -0,25 -0,41 0,21 -0,07 -0,12 -0,20 1,00 0,05 -0,28 0,24

Entorno y clima -0,19 -0,10 0,13 -0,17 0,16 -0,12 -0,24 -0,33 0,05 1,00 0,18 -0,79

Acces. ec.comerc. -0,21 -0,14 0,17 0,69 -0,54 -0,30 0,31 0,05 -0,28 0,18 1,00 -0,57

Conv.y partic.social 0,01 0,27 -0,26 -0,11 0,03 0,16 0,02 0,25 0,24 -0,79 -0,57 1,00

Page 17: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Caso. Resultados. Análisis discriminanteVariables introducidas/eliminadas en el análisis

Mín. D cuadrado F exacta

Paso

Introducidas Estadístico

Entre grupos

Estadístico gl1 gl2 Sig.

1 Empleo ,758 1 y 2 1,894 1 13,000 ,192 2 Serv.sanitarios 2,686 2 y 3 2,755 2 12,000 ,104

3 Vivienda 7,014 2 y 3 4,396 3 11,000 2,900E-

02

Paso Variables Tolerancia F para eliminar Mín. D cuadrado Entre grupos

1 Empleo 1,000 5,480 Empleo ,770 5,937 ,503 2 y 3

2 Serv.sanitarios ,770 8,345 ,758 1 y 2 Empleo ,750 2,811 3,786 2 y 3 Serv.sanitarios ,690 6,491 1,311 3 y 4 3 Vivienda ,896 5,174 2,686 2 y 3

Page 18: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Caso. Resultados. Análisis discriminante

Lambda de Wilks

Sirve como medida de la potencia discriminante ganada o perdida al introducir o eliminar una variable de la función discriminante. Atendiendo al estadístico F y su nivel de significación, comprobaremos si cada una de las variables aporta información relevante al proceso de discriminación entre los distintos grupos. Es un contraste de hipótesis de igualdad de medias entre los grupos para cada uno de los pasos.

F exacta F aproximada Paso

Número de

variables

Lambda

gl1

gl2

gl3 Estadístico gl1 gl2 Sig. Estadístico gl1 gl2 Sig.

1 1 ,442 1 3 13 5,480 3 13 0,012 2 2 ,143 2 3 13 6,575 6 24 0,000 3 3 ,059 3 3 13 6,556 9 27 0,000

Page 19: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Caso. Resultados. Análisis discriminante

Comparaciones de grupos por pares

Resultados de los contrastes de hipótesis de igualdad de medias entre los pares de grupos para cada uno de los pasos del análisis:

Paso GRUPOS 1 2 3 4 1 F 7,344 21,558 41,613 Sig. ,006 ,000 ,000

2 F 7,344 4,396 17,482 Sig. ,006 ,029 ,000

3 F 21,558 4,396 5,067 Sig. ,000 ,029 ,019

4 F 41,613 17,482 5,067

3

Sig. ,000 ,000 ,019

Page 20: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Caso. Resultados. Análisis discriminanteAutovaloresLa discriminación entre los 4 grupos se realiza mediante el cálculo de las funciones discriminantes. Uno de los procedimientos más utilizados es el procedimiento de discriminación de Fisher. El nº máximo de funciones discriminantes es el mínimo de (nº grupos menos 1; nº de variables originales). No obstante, el número máximo de funciones discriminantes no tiene por qué coincidir con el número de funciones significativas.

Autovalores o valores propios: Miden el poder discriminante de cada función discriminante.% de varianza explicada por cada una de las funciones discriminantes.Acumulado del % de varianza.Correlación canónica de cada función discriminante considerada significativa. Indice del poder discriminante de la función al ser el % de la varianza total en dicha función explicada por las diferencias entre grupos. Es el coeficiente de determinación en la regresión entre la variable de pertenencia al grupo, y las puntuaciones discriminantes.

Función Autovalor % de varianza % acumulado Correlación canónica

1 12,864 98,4 98,4 ,963 2 ,210 1,6 100,0 ,417 3 ,004 ,0 100,0 ,065

Page 21: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales

Caso. Resultados. Análisis discriminante

Contraste de significación individual de las funciones

Es posible que no queramos retener los F factores o funciones extraídos, sino sólo los que contribuyan significativamente a la discriminación entre los grupos. El contraste de significación del factor h (h=1,2,...F) se basa en la distribución chi-cuadrado, siendo el estadístico de contraste la Lambda () de Wilks.

Contraste de las funciones Lambda de Wilks Chi-cuadrado gl Sig. 1 a la 3 ,059 35,307 9 ,000 2 a la 3 ,823 2,440 4 ,655

3 ,996 ,054 1 ,817

Page 22: ANÁLISIS DISCRIMINANTE Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales