análisis exploratorio de datos

18
ANÁLISIS EXPLORATORIO DE DATOS Nadia Aguilar Pérez Grupo A Subgrupo 1 (Macarena)

Upload: nadia-aguilar-perez

Post on 27-Jan-2017

228 views

Category:

Healthcare


0 download

TRANSCRIPT

Page 1: Análisis exploratorio de datos

ANÁLISIS EXPLORATORIO DE DATOS

Nadia Aguilar PérezGrupo A Subgrupo 1 (Macarena)

Page 2: Análisis exploratorio de datos

EJERCICIO 1: SELECCIONA DOS VARIABLES CUALITATIVAS- FACTOR DEL FICHERO “ACTIVOSSALUD.RDATA”, DESCRÍBELAS EN TABLAS DE FRECUENCIA E INTERPRETA AL MENOS 3 ASPECTOS EN RELACIÓN A SUS DISTRIBUCIONES.

Page 3: Análisis exploratorio de datos

PRIMER PASO: En primer lugar, cargamos la base de datos que nos proporciona el ejercicio en R. Una vez cargada la base de datos, seleccionamos dos variables cualitativas: “botellón” y “combinados”

Page 4: Análisis exploratorio de datos

Las tablas de frecuencias que obtenemos de cada variable son las siguientes:

Page 5: Análisis exploratorio de datos

INTERPRETACIÓN DE LAS TABLAS:

- Podemos observar que los porcentajes de personas que nunca han consumido combinados y que nunca han asistido a un botellón, son muy semejantes: un 15% nunca han consumido combinados y un 17’89% tampoco ha asistido nunca a un botellón.

- Por otro lado, y como dato destacable, podemos observar en las tablas de frecuencias que mientras tan solo un 0’35% de los encuestados consume combinados en el intervalo de 2 o 3 veces por semana, son un 2’11% los que sí asisten a un botellón dentro del mismo intervalo.

- Además, son casi más de un 10% los encuestados que consumen combinados en los fines de semana con respecto a aquellos que asisten en dicho período de tiempo al botellón.

Page 6: Análisis exploratorio de datos

EJERCICIO 2: SELECCIONA DOS VARIABLES NUMÉRICAS Y MEDIANTE RESÚMENES NUMÉRICOS DESCRIBE E INTERPRETA SUS DISTRIBUCIONES

Page 7: Análisis exploratorio de datos

PRIMER PASO:En este caso vamos a seleccionar dos variables cuantitativas: “peso” y “horapracticadeportiva”.

Page 8: Análisis exploratorio de datos

Resultado:

Page 9: Análisis exploratorio de datos

INTERPRETACIÓN:

- La muestra total estudiada en las horas de práctica deportiva ha sido de 290, de los cuales 1 persona no ha querido contestar. Por otro lado, la muestra estudiada en el peso ha sido de 275, de los cuales 16 no han contestado tampoco.

- La media obtenida en la variable hora de práctica deportiva es de 2’48h, mientras que la media obtenida en la variable peso es de 62’75kg.

- La desviación típica de las horas de práctica deportiva es 3’14, y la del peso es 12’66. Esto nos indica que la primera variable se trata de una muestra homogénea (valores poco dispersos), mientras que la segunda variable es una muestra heterogénea (valores dispersos).

- Por último, los quartiles nos informan de los máximos y mínimos obtenidos en las muestras. En el caso de las horas de práctica deportiva, el máximo serían 16 horas de práctica deportiva y el mínimo serían 0 horas.

En el caso del peso, su máximo sería 130 kg y su mínimo 38 kg.

Page 10: Análisis exploratorio de datos

EJERCICIO 3: DEBES REALIZAR AL MENOS UN GRÁFICO DE CADA TIPO CON VARIABLES ADECUADAMENTE SELECCIONADAS DEL FICHERO Y DESCRIBIR E INTERPRETAR SUS DISTRIBUCIONES

Page 11: Análisis exploratorio de datos

PRIMER GRÁFICO: GRÁFICO DE SECTORES

Seleccionamos una variable dicotómica

Page 12: Análisis exploratorio de datos

‒> Gracias a este tipo de gráfico, se nos hace más fácil interpretar los resultados obtenidos. En este caso observamos como el número de mujeres de la muestra es mucho mayor que el número de varones.

Page 13: Análisis exploratorio de datos

SEGUNDO GRÁFICO: GRÁFICO DE BARRAS

Este tipo de gráfico resulta muy útil para las variables cualitativas

Page 14: Análisis exploratorio de datos

‒> Podemos observar aquí que la mayoría de individuos nunca ha utilizado la marcha atrás como método anticonceptivo, mientras muy pocos admiten realizarlo siempre como método usual.Los que ocupan el escalón más reducido son los individuos que nunca han tenido relaciones sexuales.

Page 15: Análisis exploratorio de datos

TERCER GRÁFICO: HISTOGRAMA DE FRECUENCIAS

Seleccionamos la opción de Porcentajes para que se nos sea más fácil la interpretación del gráfico

Page 16: Análisis exploratorio de datos

‒> Los valores más concentrados se encuentran entre 10 y 20 horas dedicadas al mantenimiento del hogar. A simple vista observamos que este gráfico sigue una distribución normal.

Page 17: Análisis exploratorio de datos

CUARTO GRÁFICO: DIAGRAMA DE CAJAS (BOXPLOT)

Variable cuantitativa

Page 18: Análisis exploratorio de datos

Datos que obtenemos del diagrama de cajas:- Valor máximo: 10- (Casi) el 50% de los

individuos dedican entre 0 y 4’5 horas a la práctica deportiva.

- Existen 5 valores atípicos: 155, 230, 155, 276, 273.