seminario 6: análisis exploratorio de datos, tablas de frecuencias, resúmenes numéricos y...
TRANSCRIPT
EJERCICIO 1: • Selecciona dos variables cualitativas-factor del fichero
“activossalud.RData”, descríbelas en tablas de frecuencias e interpreta al menos 3 aspectos en relación a la distribución de las mismas. • En primer lugar, importamos el conjunto de datos “activossalud” a R.
• Posteriormente, seleccionamos dos variables cualitativas: “botellón” y “tabaco”, de las cuales obtendremos las tablas de distribución de frecuencias para poder compararlas.
-Tabaco:
-Botellón:
*** Las comparaciones que vamos a realizar se van a hacer teniendo en cuenta los porcentajes obtenidos.
• Conclusiones: -El porcentaje de encuestados que a hecho botellón alguna vez es del 21,75%, mientras que en el caso del tabaco es del 19,03% .
-El 43,63% de la muestra estudiada no ha fumado tabaco nunca, mientras que tan solo el 17,89% no ha hecho botellón en ninguna ocasión. -El consumo de tabaco a diario es realizado por el 17,30% de los encuestados, con una diferencia clara con respecto al botellón el cual se realiza a diario por un 1,05% de la muestra. • Se puede concluir, que la realización de botellón está más generalizado que el consumo de tabaco, pero este sin embargo se consume más de forma diaria que el alcohol, el cual tiene su máximo durante los fines de semana.
EJERCICIO 2: • Selecciona dos variables numéricas del fichero
“activossalud.RData”, y mediante resúmenes numéricos describe e interpreta la distribución de las mismas. • Seleccionamos dos variables cuantitativas (peso y altura) y las
comparamos según las medidas de tendencia central, dispersión y posición.
• ALTURA: • • La media de la altura de la muestra es de 1,667 metros. • • La desviación típica es de 0,0807 , lo que indica que los datos están bastante
dispersos. • • Cuartiles:
- El primer cuartil es de 1,6 es decir, el 25% de la muestra miden 1,6m o menos. - El segundo cuartil es de 1,655, lo que indica que la mitad de la muestra miden
1,665m o menos. - El tercer cuartil es de 1,72, por lo que el 75% de los encuestados miden 1,72m o
menos. - El cuarto cuartil, es de 2, es decir, todos los encuestados miden igual o menos de
este valor.
Podemos decir que los límites entre los que se encuentra la altura de la muestra están entre 1,46m y 2m. • Hay 1 persona que no ha respondido a esta pregunta (NA), de una muestra constituida por 290 individuos.
• PESO: • • La media del peso de la muestra es de 62,75 kilos. • • La desviación típica es de 12,65 , lo que indica que los datos están
bastante dispersos. • • Cuartiles:
- El primer cuartil es de 54kg, es decir, el 25% de la muestra pesa 54kg o menos.
- El segundo cuartil es de 60kg, lo que indica que la mitad de la muestra pesa 60 kg o menos.
- El tercer cuartil es de 68kg, por lo que el 75% de los encuestados pesa 68kg o menos.
- El cuarto cuartil, es de 130kg, es decir, todos los encuestados pesan igual o menos de este valor.
Podemos decir que los límites entre los que se encuentra el peso de la muestra están entre 38 y 130 kg
• Hay 16 personas que no han respondido a esta pregunta (NA), en una muestra constituida por 275 individuos.
EJERCICIO 3:
• Realizar al menos un gráfico de cada tipo con variables adecuadamente seleccionadas del fichero “activossalud.RData”, describe e interpreta la distribución los mismos.
Histograma (V. Numéricas):
-Los valores más abundantes se encuentran entre 50 kg y 70 kg. -El número de personas con peso inferior a 40kg y un peso superior a 120 kg es muy bajo. -Ningún encuestado tiene un peso entre 110 y 120kg.
Gráfica de sectores (V. Cualitativas): -Hay el prácticamente casi el mismo número de personas que realizan deporte y que no. Siendo un poco mayor la cantidad de los que sí lo hacen.
Diagrama de caja o Box-plot (V. Numéricas):
Altura
-Los bigotes establecen los valores máximos (1,90m) y mínimos (1,45m aprox.). -El 50% de los casos miden entre 1,60m y 1,72m . -La mediana es de 1,65m -El 75% de la muestra mide 1,72m o menos.