análisis_discriminante_2grupos
DESCRIPTION
Analisis discriminante de 2 grupos usando minitabTRANSCRIPT
-
ANLISIS DISCRIMINANTE 2 GRUPOS MINITAB 17
1.- La muestra se divide en dos sub muestras, una utilizada para la estimacin de la funcin
discriminante, la otra es destinada con fines de validacin Calc/Datos Aleatorios/Bernoulli/
2.- Codificar Grupos en Texto
Ubicarse en columna C6, Clic Derecho/Insertar Columnas Datos/Codificar/Numrico a Texto
#Filas = 100 Almacenar: C25 Probabilidad: 0.4
Codificar: Region Mtodo: Codificar valores individuales Valor actual: 0, 1 Valor codificado: USA / North America, Outside North America Almacenar: en hoja actual / columna C6
-
3.- Mostrar tabla estadsticos descriptivos Estadisticas/Tablas/Estadisticos Descriptivos
4.- Hallar variables significativas para discriminar
a.- Estadisticas/Estadisticas bsicas/Mostrar estadsticos descriptivos
Variable para fila: Region_T Variables categoricas: mostrar conteos y porcentajes totales
Variables: Todas las var. Independ. Por Variable: Var. Dependiente Estadisticas: media, N valores presentes
-
b.- Hacer prueba de 2 medias, para demostrar que tienen medias diferentes. Estadisticas/Estadisticas bsicas/T de 2 muestras
Esta operacin se hace para cada una de las 13 variables independientes comparndola con la variable dependiente Regin
Verificar que variables tienen P_Value < 0.05 o P_Value < 0.10 Se seleccionan: Prod Qual, P_Value = 0.000 Prod Line, P_Value = 0.000 Salesf Imag, P_Value = 0.003 Comp Pric, P_Value = 0.000 Pric Flex, P_Value = 0.000 (El libro usa una prueba adicional: one way y elimina 2 variables ms, esto no tiene minitab, por tanto usar solo las variables que indica el libro) 5.- Graficar Grupos y Variables vs Data
Grfica/Grfica de puntos/Con Grupos
Variables de grficas: Las 3 var. Independ. Variable Categrica: Var. Dependiente
Hacer clic en cada muestra en su columna Muestra 1: cada una de las var. Independ. Muestra 2: Var. Dependiente
-
6.- Agregar Leyenda al Grfico
Seleccionar ejes del grfico Editor/Editar escala Y Seleccionar los puntos del grafico Editor/Editar puntos/Grupos: Region_T
Clic en mostrar Quitar check a etiquetas de marcas principales (columna Alto)
-
7.- Anlisis Discriminante:
Stat/Multivariable/Discriminant Analysis:
Se obtiene el siguiente modelo
Grupos: Var. dependiente Predictores: Todas las var. Indep. Almacenar: una columna por grupo Clic en Opciones: probabilidad de la poblacin (0.4 USA, 0.6 Outside)
-
8.- Desarrollar la Funcin Discriminante (como son 2 grupos, se forma 1 funcin) Calc/Calculadora
9.- Predecir la clasificacin de grupos Se halla el score 1 (con funcin lineal de Fisher 1) y score (con funcin lineal de Fisher 2). Si el score 1 > score 2, entonces la observacin se clasifica con el valor 0 es decir grupo USA; caso contrario se clasifica como grupo Outside. Esta es la forma mas sencilla de clasificar sin embargo se recomienda clasificar usando la funcin discriminante para hallar el score y determinar luego el punto de corte ptimo para luego asignar una clasificacin.
Determinar Score 1:
Almacenar: columna nueva C29 Expresin: Restar columna C28 C27 Marcar: Agregar como frmula
Almacenar: columna nueva C30 Expresin: -52.8799+7.7250*'Prod Line'+6.4560*'Comp Pric'+4.2311*'Pric Flex' Marcar: Agregar como frmula
-
Determinar Score 2:
Determinar Score:
Almacenar: columna nueva C31 Expresin: -60.5658+6.9088*'Prod Line'+7.3492*'Comp Pric'+5.9125*'Pric Flex' Marcar: Agregar como frmula
Almacenar: columna nueva C32 Expresin: No incluir constante -7.68592 -0.81619*'Prod Line'+0.89314*'Comp Pric'+1.68139*'Pric Flex' Marcar: Agregar como frmula
-
Clasificacin de grupo usando Score 1 y Score 2
Clasificacin de grupo usando Score y punto ptimo de corte El punto de corte ptimo se obtiene con la siguiente frmula
Sustituyendo en la funcin discriminante el valor de las medias del grupo 1 para las variables Prod Line, Comp Pric y Pric Flex se obtiene el centroide del grupo 1; se igual forma se procede para hallar el centroide del grupo 2. Del paso 4 tomar nota de las medias y registrarlas en minitab como se muestra.
Almacenar: columna nueva C33 Expresin: IF(('SCORE_1'-'SCORE_2') > 0,0,1) Marcar: Agregar como frmula
-
Usando la funcin discriminante: Hallamos los centroides reemplazando las medias del primer grupo y luego del segundo grupo, en la siguiente funcin. FD = -0.81619*'Prod Line'+0.89314*'Comp Pric'+1.68139*'Pric Flex'
Hallamos el punto de corte ptimo:
-
Clasificacin de grupo usando Score y punto ptimo de corte
10.- Determinar clasificaciones erradas Comparamos la clasificacin realizada en la columna C40 com la clasificacin original Region_T Estadisticas/Tablas/Tabulacin cruzada
-
11.- Validar la funcin discriminante Ir a Holdout Sample (la muestra de 40 datos) y luego: Calcular el Score con la funcin discriminante Calc/Calculadora
Almacenar: columna nueva C27 Expresin: Copiar la funcin discriminante: No incluir constante -7.68592 -0.81619*'Prod Line'+0.89314*'Comp Pric'+1.68139*'Pric Flex' Marcar: Agregar como frmula
-
Copiar el punto ptimo de corte
Determinar la clasificacin de la muestra Holdout Sample usando Score y punto de corte
-
12.- Determinar clasificaciones erradas Comparamos la clasificacin realizada en la columna C29 com la clasificacin original Region_T Estadisticas/Tablas/Tabulacin cruzada
-
13.- Resumen de los resultados Con Analysis Sample
a) Para el grupo USA se clasific correctamente 25 datos y 7 datos errados (p correcto = 25/32 = 78.13%)
b) Para el grupo Outside se clasific correctamente 27 datos y 1 dato errado (p correcto = 27/28 = 96.43%
c) El modelo FD tiene um p xito = (25 + 27) / 60 = 86.7% tal se obtuvo en el paso 7 Com Holdout Sample
d) Para el grupo USA se clasific correctamente 9 datos y 2 datos errados (p correcto = 9/11 = 81.82%)
e) Para el grupo Outside se clasific correctamente 25 datos y 4 dato errado (p correcto = 25/29 = 86.21%
f) El modelo FD tiene um p xito = (9 + 25) / 40 = 85.0%