actividad 2 ejercicio 1. análisis exploratorio con spssspss_act2...de los valores extremos de la...

21
ANÁLISIS EXPLORATORIO DE DATOS Actividad 2 Ejercicio 1. Análisis exploratorio con SPSS En el fichero "empleados.sav" se encuentra información relativa a 474 individuos. Realizar un análisis exploratorio de las variables salario actual (salario) y meses desde el contrato (tiempemp), según categoría laboral (catlab) y etiquetando los casos según nivel educativo (educ). Especificar en cada caso los análisis realizados e interpretar los resultados obtenidos. Definir y explicar el comportamiento y uso de las órdenes y las reglas de sintaxis empleadas por SPSS en el ejercicio. METODOLOGÍA El primer paso en el análisis multivariante es el análisis exploratorio de los datos. Estas técnicas permiten el examen de las características de la distribución de las variables implicadas en el análisis, las relaciones bivariantes (y multivariantes) entre ellas y el análisis de las diferencias entre grupos. Los siguientes pasos implican el análisis de datos ausentes (en caso que sea pertinente), la detección de valores atípicos y finalmente, la comprobación de los supuestos subyacentes en los métodos multivariantes. 1. Análisis exploratorio y gráfico de los datos Se obtuvieron los estadísticos de resumen (utilizando frecuencias) para las variables individuales a fin de obtener una primera observación de los datos. Este primer paso nos permite determinar los valores “típicos” de las variables, comprobar los supuestos de los procedimientos estadísticos y la calidad de los datos. Mediante el procedimiento de Frecuencias adquirimos los resúmenes para las variables estudiadas, sean nominales (categorías laborales y nivel educativo) o de escala (meses desde el contrato y salario actual ). Por su parte, el análisis Descriptivo mediante gráficos de barras y sectores, nos permitió conseguir las comparaciones entre las variables de escala y la distribución normal e identificar casos inusuales en dichas variables. Luego, a fin de obtener un resumen numérico y visual de los datos, para todos los casos y separados por grupos, se realizó un análisis exploratorio seleccionando como variables dependientes al salario actual (salario) y meses desde el contrato (tiempemp), y como variable de factor categoría laboral (catlab) (cuyos valores definirán los grupos de casos). Finalmente se seleccionó el nivel educativo (educ) como variable de identificación para etiquetar los casos. Estadísticos Mediante la opción Estadísticos se obtuvo el resumen del procesamiento de los datos, los estadísticos descriptivos, los estimadores robustos, los valores atípicos y los percentiles (tablas 1-5). Los estadísticos robustos son aquellos que se ven poco afectados por la influencia de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media no lo es (sí podríamos utilizar la media truncada). Otros estimadores robustos son los estimadores-M que se definen ponderando cada valor en

Upload: doanbao

Post on 02-Jul-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

Actividad 2 Ejercicio 1. Análisis exploratorio con SPSS

En el fichero "empleados.sav" se encuentra información relativa a 474 individuos. Realizar un análisis exploratorio de las variables salario actual (salario) y meses desde el contrato (tiempemp), según categoría laboral (catlab) y etiquetando los casos según nivel educativo (educ). Especificar en cada caso los análisis realizados e interpretar los resultados obtenidos.

Definir y explicar el comportamiento y uso de las órdenes y las reglas de sintaxis empleadas por SPSS en el ejercicio. METODOLOGÍA

El primer paso en el análisis multivariante es el análisis exploratorio de los datos.

Estas técnicas permiten el examen de las características de la distribución de las variables implicadas en el análisis, las relaciones bivariantes (y multivariantes) entre ellas y el análisis de las diferencias entre grupos. Los siguientes pasos implican el análisis de datos ausentes (en caso que sea pertinente), la detección de valores atípicos y finalmente, la comprobación de los supuestos subyacentes en los métodos multivariantes.

1. Análisis exploratorio y gráfico de los datos Se obtuvieron los estadísticos de resumen (utilizando frecuencias) para las

variables individuales a fin de obtener una primera observación de los datos. Este primer paso nos permite determinar los valores “típicos” de las variables, comprobar los supuestos de los procedimientos estadísticos y la calidad de los datos. Mediante el procedimiento de Frecuencias adquirimos los resúmenes para las variables estudiadas, sean nominales (categorías laborales y nivel educativo) o de escala (meses desde el contrato y salario actual). Por su parte, el análisis Descriptivo mediante gráficos de barras y sectores, nos permitió conseguir las comparaciones entre las variables de escala y la distribución normal e identificar casos inusuales en dichas variables.

Luego, a fin de obtener un resumen numérico y visual de los datos, para todos los

casos y separados por grupos, se realizó un análisis exploratorio seleccionando como variables dependientes al salario actual (salario) y meses desde el contrato (tiempemp), y como variable de factor categoría laboral (catlab) (cuyos valores definirán los grupos de casos). Finalmente se seleccionó el nivel educativo (educ) como variable de identificación para etiquetar los casos.

Estadísticos Mediante la opción Estadísticos se obtuvo el resumen del procesamiento de los

datos, los estadísticos descriptivos, los estimadores robustos, los valores atípicos y los percentiles (tablas 1-5).

Los estadísticos robustos son aquellos que se ven poco afectados por la influencia

de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media no lo es (sí podríamos utilizar la media truncada). Otros estimadores robustos son los estimadores-M que se definen ponderando cada valor en

Page 2: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

función de su distancia al centro de la distribución. Las observaciones centrales se ponderan por el máximo valor (la unidad) disminuyendo los coeficientes de ponderación a medida que las observaciones se alejan del centro de la distribución, llegando al extremo de ponderar con un cero aquellos valores muy lejanos al centro de la distribución (valores atípicos). La forma de ponderar clasifica los estimadores-M. El estimador-M de Hubert pondera con el valor uno todos los valores situados a menos de 1.339 de la mediana. El estimador-M de Tukey pondera con un cero los valores situados a 4.385 de la mediana y el estimador-M de Hampel utiliza tres coeficientes de ponderación según que cada valor de la variable se encuentre a una distancia de la mediana de 1.7, 3.4, y 8.5, respectivamente. Finalmente, el estimador-M de Andrews pondera con un cero los valores situados a 4.2066 de la mediana. Se recomienda utilizar el estimador-M de Hubert cuando la distribución se acerca a la normalidad y no hay muchos valores extremos. Por su parte, cuando existen casos atípicos, es útil utilizar los estimadores-M de Tukey y Andrews.

Gráficos Utilizando la orden Gráficos generamos histogramas (figura ), pruebas y gráficos

de probabilidad normal (figura ), y diagramas de dispersión por nivel con estadísticos de Levene (figura ). En las Opciones de manipulación de los valores perdidos, se empleó la opción de excluir los casos según lista.

El diagrama de tallo y hojas es un procedimiento semigráfico para presentar la

información para variables cuantitativas, que es especialmente útil cuando el número total de datos es pequeño (menor que 50). Los principios para la realización de este diagrama se deben a Tukey, e implican: 1) redondear los datos a dos cifras, disponerlos en dos columnas donde la primera columna está compuesta por las decenas (tallo) y la segunda de las unidades (hojas). A la derecha de cada tallo (o clase) se van escribiendo por orden las sucesivas hojas correspondientes a ese tallo. El número de hojas para cada tallo, representa la frecuencia de cada clase.

Este diagrama es una combinación entre el histograma de barras y la tabla de frecuencias. Esta herramienta muestra el rango de los datos, dónde están más concentrados, su simetría y la presencia de datos atípicos. Sin embargo, no es muy aconsejable para grandes conjuntos de datos.

El gráfico múltiple de caja y bigotes permite analizar, resumir y comparar

simultáneamente varios conjuntos de datos univariantes dados, correspondientes a los diferentes grupos en que se subdividieron los valores de la variable salario actual. Esta herramienta permite examinar la posible presencia de normalidad, simetría y valores atípicos (outliers) en el conjunto de datos. Sin embargo, deben analizarse conjuntamente con los gráficos de tallos y hojas (o histogramas digitales) ya que los gráficos de cajas no detectan la presencia de distribuciones multimodales.

Este gráfico permite analizar y resumir un conjunto de datos univariante dado. Se divide los datos en cuatro áreas de igual frecuencia, una caja central dividida en dos áreas por una línea vertical y otras dos áreas representadas por dos segmentos horizontales (bigotes) que parten del centro de cada lado vertical de la caja. La caja central encierra el 50 % de los datos. La línea vertical dentro de la caja representa la mediana, mediante la cual se puede evaluar la simetría de los datos (si la línea está en el centro de la caja, indica la inexistencia de asimetría en la variable). La media muestral se indica en el interior de la caja, mediante un signo de más. Los lados verticales de la caja indican los cuartiles inferior y superior de la variable. El bigote de la izquierda señala en sus extremos el primer cuartil Q1 (a la izquierda) y el primer cuartil menos 0.5 veces el rango intercuartílico (Q1-1.5*(Q3-Q1), a la derecha). El bigote de la derecha tiene un extremo en el tercer cuartil Q3 y el otro en el valor dado por Q3+1.5*(Q3-Q1). Los

Page 3: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

outliers (valores atípicos) se encuentran más allá de los bigotes señalados, y se representan mediante puntos alineados con la línea horizontal central.

Al ser la representación simultánea para todos los conjuntos de datos, se podrá comparar medias, medianas, rangos, valores extremos, simetrías y valores atípicos de todos los grupos.

2. Análisis y detección multivariante de casos atípicos Se analizan a través de los gráficos de cajas y bigotes, aunque también podrían utilizarse la distancia D2 de Mahalanobis, el estadístico DFITS y/o la influencia (Leverage). 3. Comprobación de los supuestos del análisis multivariante

La presencia de múltiples variables provoca complejidad de relaciones que llevan a distorsiones y sesgos cuando no se cumplen determinados supuestos (normalidad, homoscedasticidad, linealidad, ausencia de autocorrelación o correlación serial y ausencia de multicolinealidad).

Normalidad: todas las variables que intervienen en un método de análisis multivariante deben ser normales, y aunque ello no garantiza la normalidad multivariante, suele bastar con la normalidad de cada variable. La comprobación de la normalidad de las variables se realiza mediante métodos gráficos y contrastes estadísticos formales: 1) contraste de Kolmogorov-Smirov de la bondad de ajuste y 2) constraste de normalidad de Shapiro y Wilks.

Para el contraste de Kolmogorov-Smirov (K-S) consideramos que la masa total de probabilidad discreta está repartida uniformemente entre los N valores muestrales de forma que, ordenados los valores muestrales de menor a mayor, la función de distribución empírica de la muestra es Fn(x)=Ni/N. este contraste trata de medir el ajuste entre la función de distribución empírica de una muestra y la función de distribución teórica. Como la distribución a ajustar es una normal, el estadístico de K-S se dice que está corregido por Lilliefors. Se utiliza el criterio de p-valor, rechazando la hipótesis nula al nivel alfa cuando el p-valor es menor que alfa, y aceptándose en caso contrario.

El contraste de normalidad de Shapiro-Wilks (S-W) es un caso particular de contraste de ajuste, donde se trata de comprobar si los datos provienen de una distribución normal (es un contraste específico para normalidad). Este test mide el ajuste de la muestra a una recta dibujada en papel probabilístico normal. Se rechaza la normalidad cuando el ajuste es bajo, que corresponde a valores pequeños del estadístico del test. Puede también utilizarse el criterio del p-valor, rechazando la hipótesis nula de normalidad de los datos al nivel alfa cuando el p-valor es menor que alfa, y aceptándola en caso contrario.

Heteroscedasticidad: en cualquier modelo multivariante suele suponerse que la variable u (término de error) es una variable aleatoria con esperanza nula y matriz de covarianzas constante (hipótesis de homoscedasticidad) y diagonal. Su análisis comienza por el examen gráfico de los residuos (estudentizados) respecto a las variables endógenas y exógenas. Este último gráfico permite determinar cuál es la variable que implica mayor heteroscedasticidad, aquella variable exógena cuyo gráfico se separa más de la aleatoriedad. También se utiliza la gráfica de valores observados respecto a los valores predichos. Aparte de los análisis gráficos en ciertas situaciones es necesario realizar contrastes formales como los de White, Ramsey o Levene . Este último se utiliza para comprobar que la dispersión de la varianza entre grupos formados por variables métricas, se mantiene igual.

Page 4: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

Multicolinealidad: el supuesto de que las variables sean linealmente independientes (hipótesis de independencia) se analiza mediante la matriz de correlaciones. Valores altos en esta matriz son síntoma de una posible dependencia entre las variables implicadas. Sus soluciones son: ampliar la muestra, realizar transformaciones adecuadas en las variables, sustituir o suprimir alguna de las variables, etc.

Autocorrelación: el supuesto de que el término de error es una variable aleatoria con esperanza nula y matriz de covarianza constante y diagonal (hipótesis de no autocorrelación), se evalúa mediante el análisis gráfico de los residuos (residuos estudentizados) respecto del índice temporal (o número de fila), que debe presentan una estructura aleatoria libre de tendencia. También se realizan contrastes formales como los de Durbin-Watson, Wallis, etc.

Linealidad: los gráficos de dispersión de las variables con secuencias no lineales y los gráficos residuales con secuencias no aleatorias, permiten detectar la falta de linealidad. RESULTADOS 1. Análisis de frecuencia y descriptivo

El procedimiento Frecuencias proporcionó estadísticos y representaciones gráficas

que resultan útiles para la descripción de las variables, antes de realizar un análisis descriptivo separado por grupos.

El gráfico de sectores es una herramienta visual para la evaluación de las frecuencias relativas de cada categoría. Las tablas de frecuencia indican las frecuencias precisas para cada categoría (tabla 1). Observamos que la mayoría de los individuos muestreados presentan un nivel educativo valorado en 12, seguidos por el nivel educativo 15, lo que significa que la mayoría de los encuestados presentan un alto nivel educativo (figura 1.A). En particular, 190 y 116 individuos corresponden a los niveles educativos valorados en 12 y 15 conformando respectivamente, el 40.1 y 24.5% del total de individuos encuestados. A su vez, la amplia mayoría de los encuestados pertenecen al sector administrativo (figura 1.B). La columna de frecuencias reporta que 363 individuos provienen del sector administrativo, lo que es equivalente al 76.6% del número total de encuestados.

Page 5: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

Figura 1. Evaluación de las frecuencias relativas de cada categoría mediante gráfico de sectores, para las variables nivel educativo (A) y categoría laboral (B). Tabla 1. Casos analizados que han resultado válidos y casos totales, presentes en las categorías laborales (A) y los distintos niveles educativos (B).

363 76,6 76,6 76,684 17,7 17,7 94,327 5,7 5,7 100,0

474 100,0 100,0

AdministrativoDirectivoSeguridadTotal

VálidosFrecuencia Porcentaje

Porcentajeválido

Porcentajeacumulado

190 40,1 40,1 40,1116 24,5 24,5 64,659 12,4 12,4 77,053 11,2 11,2 88,227 5,7 5,7 93,911 2,3 2,3 96,29 1,9 1,9 98,16 1,3 1,3 99,42 ,4 ,4 99,81 ,2 ,2 100,0

474 100,0 100,0

1215168191718142021Total

VálidosFrecuencia Porcentaje

Porcentajeválido

Porcentajeacumulado

A B

A

B

Page 6: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

Los estadísticos descriptivos de la variable nivel educativo, así como sus gráficos de sectores respecto a las categorías laborales, se señalan a continuación (tabla y figura 4). En ellos podemos notar que el sector administrativo se encuentra representado por niveles educativos altos, principalmente los 12 y 15 (figura 2.A), que representan el 48.5 y 30.6% del total. También es importante señalar que este sector laboral presenta casi la totalidad de los niveles educativos observados en los encuestadores. Sin embargo, ocurre una gran diferencia en el personal de seguridad, donde los niveles educativos se encuentran mal representados y apenas dos de ellos (8 y 12) completan el 96.3% de los casos (tabla 2). Finalmente, los directivos son el sector laboral que presenta mayor número de casos en niveles educativos altos, donde el nivel correspondiente al valor 16 y 19, llegan a pesar un 41 y 31%, respectivamente (tabla 2).

Figura 2. Evaluación de las frecuencias relativas de cada categoría mediante gráfico de sectores, para las variables nivel educativo (A) y categoría laboral (B).

Page 7: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

Tabla 2. Casos analizados que han resultado válidos y casos totales, presentes en las categorías laborales (A) y los distintos niveles educativos (B).

40 11,0 11,0 11,0176 48,5 48,5 59,5

6 1,7 1,7 61,2111 30,6 30,6 91,724 6,6 6,6 98,33 ,8 ,8 99,22 ,6 ,6 99,71 ,3 ,3 100,0

363 100,0 100,0

812141516171819Total

VálidosFrecuencia Porcentaje

Porcentajeválido

Porcentajeacumulado

Categoría laboral = Administrativoa.

13 48,1 48,1 48,113 48,1 48,1 96,31 3,7 3,7 100,0

27 100,0 100,0

81215Total

VálidosFrecuencia Porcentaje

Porcentajeválido

Porcentajeacumulado

Categoría laboral = Seguridada.

1 1,2 1,2 1,24 4,8 4,8 6,0

35 41,7 41,7 47,68 9,5 9,5 57,17 8,3 8,3 65,5

26 31,0 31,0 96,42 2,4 2,4 98,81 1,2 1,2 100,0

84 100,0 100,0

1215161718192021Total

VálidosFrecuencia Porcentaje

Porcentajeválido

Porcentajeacumulado

Categoría laboral = Directivoa.

Por su parte, la tabla estadística 3, nos reveló aspectos interesantes sobre la distribución de las variables salario actual y meses desde el contrato, comenzando por el resumen de los cinco-números principales (mínimo, cuartiles -25 y 75-, mediana y máximo).

Page 8: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

Tabla 3. Estadísticos descriptivos para las variables meses desde el contrato y salario actual percibido por los encuestados

Meses desde el contrato Salario actual Meses desde el contrato474

081,1181,00

10,061-,053,112

-1,153,224

6398

72,0081,0090,00

VálidosPerdidos

N

MediaMedianaDesv. típ.AsimetríaError típ. de asimetríaCurtosisError típ. de curtosisMínimoMáximo

255075

Percentiles

4740

$34,419.57$28,875.00

$17,075.6612,125

,112

5,378

,224

$15,750$135,000

$24,000.00$28,875.00$37,162.50

El centro de la distribución de los meses de contrato puede aproximarse mediante

al mediana (o segundo cuartil, que corresponde a 81 meses), y el 50% central donde caen los valores para dicha variable van entre 72 y 90 meses de contrato (el primer y tercer cuartil). También cabe destacar que sus valores extremos son 63 y 98, el mínimo y máximo, respectivamente. La media es muy similar a la mediana, sugiriendo que la distribución es bastante simétrica. Esta sospecha se confirma mediante la observación del valor de asimetría, que es cercano a cero.

Respecto al salario actual, el 50% central de los datos se encuentran entre los valores $24000 y $37162 dólares. Los valores extremos de esta variable son $15750 y $135000, y a diferencia de la anterior variable de estudio, en este caso la media dista bastante del valor adoptado por la mediana ($34419 y $28875 dólares, respectivamente). Esta observación, conjuntamente con el elevado valor positivo de la asimetría, indica que la variable presenta una larga cola hacia la derecha, y que por tanto la distribución es asimétrica hacia la derecha (existen algunos valores distantes en la dirección positiva, respecto al centro de la distribución). La asimetría positiva, conjunto a la gran distancia entre la media y la mediana, inflan la desviación típica, de tal manera que no es un estimativo útil de la dispersión de los datos. Un valor alto y positivo de la curtosis nos indica que la distribución de los salarios actuales es más empinada y presenta fuertes colas, respecto a lo esperado para una distribución normal.

Las afirmaciones anteriores se corroboran en los histogramas correspondientes a

cada variable de estudio, que representan un resumen visual de las distribuciones de los valores (figura 3). La curva normal superpuesta ayuda una vez más a evaluar la asimetría y curtosis de las variables.

Page 9: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

Figura 3. Histogramas de frecuencia relativa donde se señalan las curvas normales y sus estadísticos descriptivos (media, desviación típica y N total), para las variables de estudio (medes desde el contrato y salario actual).

Muchos de los procedimientos estadísticos para datos cuantitativos, son menos seguros cuando la distribución de los valores es marcadamente diferente de la distribución normal, como ocurre en el caso de la variable salario actual. Por ello, si quisiéramos seguir analizando esta variable, su transformación logarítmica nos permitiría colocar la distribución de los valores cercana a la normal. La transformación logarítmica es una elección sensible dado que el salario actual toma solo valores positivos y es asimétrica positiva. Esta afirmación se corrobora mediante los estadísticos descriptivos analizados luego de la transformación de la variable salario actual (tabla 4).

Tabla 4. Estadísticos descriptivos de la variable salario actual luego de someterse a una transformación logarítmica de los datos.

logsalario474

010,356810,2707,397331,001,112,682,2249,66

11,8110,085810,270710,5230

VálidosPerdidos

N

MediaMedianaDesv. típ.AsimetríaError típ. de asimetríaCurtosisError típ. de curtosisMínimoMáximo

255075

Percentiles

Page 10: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

El nuevo histograma de la variable salario actual transformada (figura 4), permite apreciar que la transformación ha permitido que la distribución de los datos sea cercana a la normal. La curtosis y asimetría se ven notoriamente reducidas, y la media y la media presentan valores próximos entre sí. Asimismo el histograma producido es mucho más cercano a la curva normal (tabla y figura 4).

Figura 4. Histograma de frecuencia relativa donde se señalan las curvas normales y sus estadísticos descriptivos (media, desviación típica y N total), para la variable salario actual con transformación logarítmica.

Conclusión 1

Hemos evaluado la composición de las variables categorías laborales y niveles educativos, y hemos descripto las distribuciones de los meses desde el contrato y el salario actual que perciben los encuestados.

A grandes rasgos, identificamos una pobre representación de los distintos niveles educativos en el sector de empleados de seguridad (figura 2), si bien, éste sector fue el menos encuestado de las categorías laborales (figura 1). También observamos cierta correspondencia entre los altos escalafones laborales y los mayores niveles educativos (figura 1).

La variable meses desde el contrato, presentó una distribución aproximadamente normal, con curtosis negativa (figura 3). Identificamos una asimetría positiva en la distribución de los salarios actuales, donde aplicamos la transformación logarítmica, recomendada para futuros análisis de dicha variable (tabla y figura 4).

Page 11: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

2. Análisis exploratorio de las variables agrupadas según las categorías laborales e identificando el nivel educativo de los valores extremos.

En primer lugar obtenemos el resumen de los casos, donde observamos la inexistencia de valores perdidos (tabla 5). Señalamos nuevamente que el personal administrativo está notoriamente mejor representando en la muestra (presenta un número de casos N, más de diez veces mayor al correspondiente a los empleados en seguridad).

Tabla 5. Resumen del procesamiento de los casos según las variables: salario actual y meses desde el contrato, y agrupados en categorías laborales.

363 100,0% 0 ,0% 363 100,0%27 100,0% 0 ,0% 27 100,0%84 100,0% 0 ,0% 84 100,0%

363 100,0% 0 ,0% 363 100,0%27 100,0% 0 ,0% 27 100,0%84 100,0% 0 ,0% 84 100,0%

Categoría laboralAdministrativoSeguridadDirectivoAdministrativoSeguridadDirectivo

Salario actual

Meses desde el contrato

N Porcentaje N Porcentaje N PorcentajeVálidos Perdidos Total

Casos

Los estadísticos descriptivos habituales se muestran en la tabla 6, para las

variables consideradas y según las categorías laborales analizadas (administrativos, seguridad y directivos; tabla 6).

Para el personal de seguridad, la media ($30938) y la media truncada ($31007)

son muy similares a la mediana ($30750), sugiriendo que la distribución no presenta una elevada asimétrica. Dicha afirmación se confirma mediante la observación del valor de asimetría, que es cercano a cero y mediante el histograma de los datos (figura 5). A su vez, el 50% central de los datos para los empleados en seguridad, se encuentran entre $30000 y $31200 dólares (primer y tercer cuartil), siendo que el extremo superior de este rango intercuartílico coincide con el de los administrativos.

La distribución del salario actual para los administrativos presenta valores de

media y mediana alejados entre sí, una gran asimetría (1.905) y una elevada curtosis (7.977). Por consiguiente, la distribución de los salarios actuales, para el grupo de administrativos, es asimétrica positiva y empinada, presentando una larga cola de datos hacia la derecha (figura 1). El 50% de los datos adoptan valores entre los $22800 y $31200 dólares, pero los valores mínimo y máximo alcanzan los $15750 y $80000 dólares, respectivamente.

Finalmente el rango del salario actual perteneciente al grupo de los directivos, es

diez veces mayor al correspondiente al personal de seguridad y tres quintos más que el de los administrativos. El valor mínimo y máximo para este grupo de trabajadores alcanza los $34410 y $135000 dólares, respectivamente. Presenta una asimetría positiva (1.181) y curtosis (2.107) moderada, con valores de media y mediana no muy próximos entre sí. Estas observaciones implican que la variable salario actual se distribuye con asimetría positiva en el grupo de los directivos, según como indica el histograma correspondiente (figura 5).

Page 12: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

Tabla 6. Estadísticos descriptivos para las variables salario actual y meses desde el contrato, agrupadas según la categoría laboral del encuestado. Debajo se observan los percentiles según la definición de promedio ponderado. Estadístico

$27,838.54 $27,290.50 $26,550.00 6E+007 $7,567.995 $15,750 $80,000 $64,250 $8,400 1,905 7,977$30,938.89 $31,007.72 $30,750.00 4471603 $2,114.616 $24,300 $35,250 $10,950 $1,200 -,368 3,652$63,977.80 $62,728.31 $60,500.00 3E+008 $18,244.776 $34,410 $135,000 $100,590 $20,475 1,181 2,107

81,07 81,07 81,00 102,222 10,110 63 98 35 18 -,021 -1,149

81,56 81,62 80,00 72,026 8,487 67 95 28 14 -,087 -1,077

81,15 81,21 81,00 108,373 10,410 64 98 34 18 -,164 -1,230

CategoríalaboralAdministrativoSeguridadDirectivoAdministrativoSeguridad

Directivo

Salario actual

Meses desdeel contrato

Media

Mediarecortada

al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango

Amplitudinter-cuartil Asimetría Curtosis

$22,800.0 $26,550.0 $31,200.0$30,000.0 $30,750.0 $31,200.0$51,618.8 $60,500.0 $72,093.8

72,00 81,00 90,0076,00 80,00 90,0073,00 81,00 91,00

CategoríalaboralAdministrativoSeguridadDirectivoAdministrativoSeguridadDirectivoAdministrativo

Salario actual

Meses desdeel contrato

Salario actual

Promedioponderado (definición 1)

Bisagras de

25 50 75

Percentiles

Figura 5. Histogramas del salario actual para las categorías laborales de: administrativos, seguridad y directivos.

Page 13: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

El rango del salario actual para los empleados administrativos, de seguridad y directivos, fue dividido en 16, 7 y 9 clases o intervalos llamados tallos, respectivamente (figura 6). Cada uno de estos intervalos se representan mediante una fila del diagrama (la columna frequency indica la frecuencia absoluta de cada clase). Los diagramas de tallo y hojas indican la existencia de valores extremos, con una frecuencia del: 12% para los administrativos, 2 y 4% para el grupo de personal de seguridad, y 4% para los directivos.

Los histogramas de frecuencia (figura 5) y los diagramas de tallo y hojas (figura 6) confirman una asimetría positiva del salario actual para las categorías de administrativos y directivos. En particular, dicha variable presenta un mayor empinamiento y asimetría en el grupo de administrativos, lo que permite pensar en la inexistencia de normalidad. Por su parte, la distribución de ésta variable respecto al personal de seguridad parece indicar un ajuste no muy distante de la distribución normal.

Figura 6. Gráficos de tallo y hojas de la variable salario actual, correspondientes a las tres categorías laborales consideradas en el presente estudio.

En la variable meses desde el contrato se observa que las medias, medias truncadas y medianas, son bastante similares entre sí, para las diferentes categorías de empleo. A su vez, sus estadísticos de asimetría son cercanos a cero y levemente negativos, por lo cual en una primera instancia se podría afirmar que dicha variable presenta distribuciones no muy distantes de la esperada para una distribución normal, para las tres categorías de empleo. Sin embargo, una débil asimetría negativa es observada en el valor de asimetría y también en la proximidad que adoptan el 50% de los valores centrales de los datos (~70-90) respecto a los valores máximos de la variable (~95-98). Los valores de curtosis también son levemente negativos, indicando distribuciones poco empinadas para las tres categorías laborales.

Los histogramas y diagramas de tallo y hojas (figuras 7-8), donde no se señala la

existencia de valores extremos, indican rasgos no muy distantes respecto a la distribución normal, pero la inexistencia de una correspondencia clara con la misma.

ADMINISTRATIVOS Frequency Stem & Leaf 2,00 1 . 5 16,00 1 . 66666777 15,00 1 . 8899999 35,00 2 . 00000011111111111 44,00 2 . 2222222222222233333333 53,00 2 . 44444444444444455555555555 55,00 2 . 666666666666677777777777777 35,00 2 . 88888888999999999 30,00 3 . 00000001111111 19,00 3 . 222333333 17,00 3 . 44445555 11,00 3 . 66677 8,00 3 . 8899 8,00 4 . 000& 3,00 4 . 2& 12,00 Extremes (>=43950)

SEGURIDAD Frequency Stem & Leaf 2,00 Extremes (=<28500) 1,00 29 . 5 5,00 30 . 00003 12,00 30 . 677777777777 1,00 31 . 2 2,00 31 . 99 4,00 Extremes (>=33750)

DIRECTIVOS Frequency Stem & Leaf 3,00 3 . 478 15,00 4 . 001233355667788 21,00 5 . 011234445555566678899 21,00 6 . 000011125556666788889 11,00 7 . 00023355888 4,00 8 . 1236 4,00 9 . 0127 1,00 10 . 0 4,00 Extremes (>=103500)

Page 14: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

Figura 7. Histogramas de los meses de contrato para las categorías laborales de: administrativos, seguridad y directivos.

Figura 8. Gráficos de tallo y hojas de la variable meses de contrato, correspondientes a las tres categorías laborales consideradas en el presente estudio.

ADMINISTRATIVOS Frequency Stem & Leaf 3,00 6 . 333 14,00 6 . 44444455555555 28,00 6 . 6666666666666666777777777777 23,00 6 . 88888899999999999999999 14,00 7 . 00000000000011 23,00 7 . 22222222222222333333333 10,00 7 . 4444455555 19,00 7 . 6666666677777777777 22,00 7 . 8888888888888999999999 30,00 8 . 000000000001111111111111111111 27,00 8 . 222222222222222333333333333 20,00 8 . 44444444444455555555 19,00 8 . 6666666666777777777 16,00 8 . 8888888888889999 19,00 9 . 0000000000001111111 26,00 9 . 22222222222333333333333333 16,00 9 . 4444444444455555 21,00 9 . 666666666667777777777 13,00 9 . 8888888888888

SEGURIDAD Frequency Stem & Leaf 4,00 6 . 7899 2,00 7 . 34 7,00 7 . 6788899 4,00 8 . 0334 2,00 8 . 57 7,00 9 . 0011224 1,00 9 . 5

DIRECTIVOS Frequency Stem & Leaf 2,00 6 . 44 16,00 6 . 5555555667788899 6,00 7 . 013344 13,00 7 . 5567888888999 13,00 8 . 0001111333334 9,00 8 . 566678999 18,00 9 . 001111223333333344 7,00 9 . 6666678

Page 15: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

Los estimadores robustos de la variable salario actual, para los administrativos y directivos, se encuentran relativamente cercanos al valor de la mediana, pero ninguno es próximo a la media (tabla 7).

En cuanto a los meses desde el contrato, podemos afirmar que para los tres

grupos de trabajadores (tabla 7), los estimadores robustos presentan valores cercanos a las medias de cada grupo (aún más similares que su comparación con la mediana).

Tabla 7. Estimadores robustos: estimadores-M. En a,b,c,d se indican las constantes de ponderación para los estimadores, que toman los siguientes valores: 1.339, 4.685, 1.700-3.400-8.500 y 1.340*pi, respectivamente.

$26,748.31 $26,356.33 $26,767.08 $26,350.15$30,711.82 $30,646.42 $30,621.07 $30,646.78$61,388.90 $59,820.52 $61,059.63 $59,780.37

81,07 81,08 81,05 81,0881,85 81,55 81,66 81,5581,35 81,29 81,15 81,29

Categoría laboralAdministrativoSeguridadDirectivoAdministrativoSeguridadDirectivo

Salario actual

Meses desde el contrato

Estimador-Mde Hubera

Biponderadode Tukeyb

Estimador-Mde Hampelc

Onda deAndrewsd

a.

Los contrastes de normalidad implican evaluar el ajuste de la curva normal a los datos, donde un contraste significativo representa el pobre ajuste de los datos a dicha distribución normal. En la tabla 8 podemos observar que para ambas variables (salarios actuales y meses de contrato) y en casi todas las categorías laborales consideradas en el estudio (excepto el personal de seguridad para la variable meses desde el contrato), los contrastes de normalidad dan significativos, por lo que se ajustan pobremente a una distribución normal. Sin embargo, en el grupo de empleados de seguridad, la variable meses de contrato sí se ajusta bien a una normal (los test no son significativos).

Tabla 8. Pruebas de normalidad utilizando los contrastes de Kolmogorov-Smirov (con la corrección de la significación de Lillieforsa) y Shapiro-Wilks.

,107 363 ,000 ,882 363 ,000,276 27 ,000 ,818 27 ,000,109 84 ,016 ,929 84 ,000,084 363 ,000 ,955 363 ,000,136 27 ,200* ,948 27 ,191,108 84 ,017 ,934 84 ,000

Categoría laboralAdministrativoSeguridadDirectivoAdministrativoSeguridadDirectivo

Salario actual

Meses desde el contrato

Estadístico gl Sig. Estadístico gl Sig.Kolmogorov-Smirnova Shapiro-Wilk

Este es un límite inferior de la significación verdadera.*. La tabla de valores extremos indica los cinco mayores y menores valores para las

variables salario actual y meses de contrato, en cada categoría laboral (tabla 9). Observamos que el salario de los directivos es casi siempre mayor que el del personal de seguridad (a excepción del caso 462, cuyo salario es del $34410).

También se indica que los mayores salarios actuales para los administrativos y directivos, son percibidos por aquellos individuos con niveles educativos altos, que corresponden en mayor medida a los directivos y administrativos: 19 y 16 en el grupo de directivos y 15, 18 y 16, para los administrativos. Sin embargo, los máximos salarios

Page 16: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

percibidos por individuos de nivel educativo valorado en 16, los administrativos reciben aproximadamente la mitad del salario máximo recibido por los directivos de igual nivel educativo. Respecto a los menores salarios actuales, los directivos continúan presentando, para estos casos, altos niveles educativos (16 y 15), mientras que los administrativos presentaron niveles educativos notoriamente inferiores (8 y 12) para los menores salarios percibidos.

Por su parte, los menores valores extremos para los empelados en seguridad (8, 12 y 15) presentan niveles educativos muy similares a los correspondientes a los individuos que presentan los mayores valores extremos del salario (8 y 12), por lo que esta variable no parece incidir en el comportamiento extremo de los salarios actuales. Esto puede explicarse mediante el gráfico de sectores analizado en el apartado anterior (figura 2).

Tabla 9. Valores extremos (mayores y menores) de las variables salario actual y meses desde el contrato, según la categoría laboral de los encuestados. En a, b,c,d,e,f,g se indica que en la tabla de valores extremo mayores/menores solo se muestra una lista parcial de los casos con el valor correspondiente al señalado.

218 272 72 161 80 15 18 16 16 16

2 3 4 5 6 16 12 8 15 15

291 303 281 206 174 12 12 8 12 8

45 48 96 98 111 12 12 8 8 12

29 32 18 343 446 19 19 16 16 16

1 18 27 29 32 15 16 19 19 19

378 338 411 224 90 8 8 12 12 8

474 473 472 471 470 12 12 15 15 12

126 386 326 429 385 15 8 8 8 12

429 414 386 385 353 8 8 8 12 12

462 120 288 286 231 16 16 15 15 16

468 464 462 458 456 16 19 16 19 19

Salario actualMeses desdeel contratoSalario actualMeses desdeel contratoSalario actualMeses desdeel contratoSalario actualMeses desdeel contratoSalario actualMeses desdeel contratoSalario actualMeses desdeel contrato

CategoríalaboralAdministrativo

Seguridad

Directivo

Administrativo

Seguridad

Directivo

Mayores

Menores

1 2 3 4 5 1 2 3 4 5Número del caso Nivel educativo

$80,000 $66,875 $54,000 $52,650 $51,000

98 98 98 98 98c

$35,250 $35,250 $34,500 $33,750 $31,950a

95 94 92 92 91e

$135,000 $110,625 $103,750 $103,500 $100,000

98 97 96 96 96f

$15,750 $15,900 $16,200 $16,200 $16,200

63 63 63 64 64d

$24,300 $28,500 $29,550 $30,000 $30,000b

67 68 69 69 73

$34,410 $37,800 $38,700 $40,050 $40,200

64 64 65 65 65g

1 2 3 4 5Valor

En los diagramas de cajas podemos observar una vez más las diferencias en las distribuciones de las variables dependientes, respecto a los grupos laborales (figura 9 y 10).

Para el salario actual, los gráficos de cajas señalan los outliers mediante círculo, y los valores extremos con un asterisco. Asimismo, se indica en el gráfico el nivel educativo correspondiente a cada outlier o valor extremo (figura 9, ver conjuntamente la tabla 9).

Referente a los meses desde el contrato, no se observan valores extremos de importancia ni outliers (figura 10).

Page 17: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

Figura 9. Gráfico de cajas y bigotes para la variable salario actual y sus tres categorías laborales: administrativos, seguridad y directivos. Se señalan mediante círculos los outliers y con asterisco los valores extremos.

Figura 10. Gráfico de cajas y bigotes para la variable meses desde el contrato y sus tres categorías laborales: administrativos, seguridad y directivos.

Page 18: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

Figura 11. Gráficos Q-Q normal sin tendencia de la variable salario actual, para las categorías laborales consideradas.

Los gráficos Q-Q normales señalan los números de los casos correspondientes a estos extremos (figura 11-12). En los gráficos Q-Q normal, la línea roja recta representa los valores esperados cuando los datos siguen una distribución normal. Observamos nuevamente, en las tres categorías laborales, desvíos respecto a la normalidad, a excepción del grupo de seguridad cuya distribución no es muy clara.

A excepción del grupo de seguridad, en los gráficos de evaluación de la normalidad (figuras 11 y 12), observamos dos comportamientos diferenciables según la variable dependiente: 1) un comportamiento curvo o en forma de C, correspondiente al salario actual y 2) una curva en S para la variable meses desde el contrato.

En particular, el patrón en forma de C es característico de las distribuciones con asimetría izquierda (negativa). Asimismo, la forma en S del gráfico para los meses desde el contrato, suele encontrarse en distribuciones con largas colas (o colas importantes).

Destacamos aquí, el comportamiento aproximadamente normal de la variable meses desde el contrato, para los empleados en seguridad.

Page 19: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

Figura 12. Gráficos Q-Q normal de los meses de contrato, para las categorías laborales consideradas.

Conclusión 2

En resumen, podemos destacar que la variable meses desde el contrato no presenta valores atípicos, cuenta con valores de asimetría y curtosis levemente negativos (tabla 6), que a partir de los gráficos de barras y los Q-Q normales (figuras 7 y 12), nos permiten afirmar que dicha distribución se aparta del comportamiento normal aunque no de manera pronunciada. A su vez, se observaron distribuciones semejantes para los tres sectores laborales (figura 10). Por su parte, para el personal se seguridad, dichos gráficos no son muy claros y los test de normalidad no rechazan la hipótesis de normalidad de los datos (tabla 8). En el salario actual, las discrepancias con la distribución normal son más acentuadas, presentando asimetrías y altos valores de curtosis positivos, con mayores diferencias entre los valores de media y mediana (tabla 6). Las distribuciones no son similares para los tres grupos laborales, presentando una mayor asimetría y curtosis en el caso de los empleados administrativos y rangos superiores para los directivos (figura 5). Dicha afirmación, unida al diagrama de cajas, los gráficos Q-Q normal y los test de normalidad, nos permiten afirmar que, para los administrativos y directivos, las distribuciones del salario actual son asimétricas positivas y algo leptocúrticas (figuras 9 y 11). Aquí encontramos varios casos de valores atípicos y outliers, vinculados al nivel educativo de los individuos encuestados.

Page 20: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

En conjunto, recordando la similitud en las distribuciones de los meses desde que los encuestados han sido contratados, cabe discutir si los valores extremos del salario se vinculan más directamente con el nivel educativo o con el escalafón laboral.

Analizando la tabla 9, los directivos llegan a presentar valores extremos superiores del salario que cuatriplican a los máximos salarios alcanzados por el personal de seguridad (tabla 6). Asimismo, los niveles educativos alcanzados por los directivos son notoriamente superiores a los demás grupos laborales, presentando incluso, altos valores para los menores salarios percibidos por el sector (tabla 9). Sin embargo, la correspondencia entre mayores salarios a mayores niveles educativos, no se ve muy bien explicada por el escalafón laboral, por ejemplo, dada la existencia de casos extremos donde a igual nivel educativo (16) los directivos presentan salarios que duplican los de los administrativos (tabla 9). Por ello, había que realizar otro tipo de análisis más específico para contestar este problema.

Finalmente cabe recordar que la encuesta presenta una representación muy desigual de las categorías laborales de lso encuestados, viéndose subestimado el personal de seguridad (figura 1).

APÉNDICE SINTAXIS DE LAS FUNCIONES REALIZADAS EN SPSS

1. Análisis de frecuencia y descriptivo

Se indican a continuación las órdenes que fueron ejecutadas en SPSS para el

análisis de frecuencias correspondiente a los niveles educativos (primer bloque) y las categorías laborales (segundo bloque). Se ordena el análisis de cada variable (/ORDER) y la construcción de los correspondientes gráficos por sectores (/PIECHART). FREQUENCIES VARIABLES=educ /FORMAT=NOTABLE /PIECHART FREQ /ORDER= ANALYSIS . FREQUENCIES VARIABLES=catlab /FORMAT=NOTABLE /PIECHART FREQ /ORDER= ANALYSIS .

Las órdenes computadas para la construcción del gráfico por sectores educativos, correspondiente a cada categorías laborales analizada, se detallan en este apartado. Observamos que los datos fueron segmentados según la categoría laboral de los mismos (SEPARATE BY catlab) y luego se aplicó las mismas órdenes que en párrafo anterior.

SORT CASES BY catlab . SPLIT FILE SEPARATE BY catlab . FREQUENCIES VARIABLES=educ /PIECHART FREQ /ORDER= ANALYSIS .

Page 21: Actividad 2 Ejercicio 1. Análisis exploratorio con SPSSSPSS_Act2...de los valores extremos de la variable. La mediana es un estadístico de centralización robusto, pero la media

ANÁLISIS EXPLORATORIO DE DATOS

2. Análisis exploratorio El fichero de órdenes aplicado para al aobtención del análisis exploratorio, consta de

la selección de las variables dependientes (VARIABLES) según la categoría laboral (BY) e identificando el nivel educativo de cada individuo (ID). Se solicitó graficar diagramas de cajas, tallo y hojas, histogramas y gráficos Q-Q normal (/PLOT), estableciendo comparaciones según los grupos formados (COMPARE). También se calcularon una serie de estimadores robustos (/MESTIMATORS), percentiles (/PERCENTILES) y la descripción de los valores extremos (/STATISTICS DESCRIPTIVES EXTREME). EXAMINE VARIABLES=salario tiempemp BY catlab /ID= educ /PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT /COMPARE GROUP /MESTIMATORS HUBER(1.339) ANDREW(1.34) HAMPEL(1.7,3.4,8.5) TUKEY(4.685) /PERCENTILES(5,10,25,50,75,90,95) HAVERAGE /STATISTICS DESCRIPTIVES EXTREME /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.