tabla de contenidos an´alisis exploratorio de...
TRANSCRIPT
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Analisis Exploratorio de DatosIntroduccion. Analisis descriptivo unidimensional
Javier [email protected]
Dpto. de Estatıstica e I.O.
Universidade de Vigo
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 1 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Tabla de Contenidos
1 Introduccion
2 Poblacion y Muestra
3 Variables CualitativasTablas de FrecuenciasRepresentaciones Graficas
4 Variables Cuantitativas DiscretasTablas de FrecuenciasRepresentaciones graficas
5 Estudio de Variables ContinuasRepresentaciones graficasMedidas de Posicion y DispersionDiagrama de Cajas. Datos atıpicos
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 2 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Introduccion
Se puede definir la estadıstica como la ciencia de los “datos”, que generalmente sonobtenidos mediante la observacion reiterada de un experimento de interes.
Experimento
Un experimento es un proceso por el que se obtiene una observacion. Los experimentosse pueden clasificar en:
experimentos deterministas: es aquel qe realizado repetidas veces en condiciones
identicas proporciona siempre el mismo resultados.
Por ejemplo, si tomamos una piedra y la soltamos a una determinadaaltura estamos seguros de que caera.
experimentos aleatorios: en este caso se pueden establecer todos los posiblesresultados, pero no se puede predecir un resultado concreto.
Por ejemplo, cuando se lanza una moneda, solo hay dos posiblesresultados (cara o cruz), pero no se puede predecir cual de los dosresultados ocurrira. Dependera del “azar”.
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 3 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Idea intuitiva de probabilidad
Como ya se ha comentado en los experimentos aleatorios no es posible predecir losvalores del experimentos. Sin embargo, en muchas ocasiones se podra determinar elmodelo probabilıstico que rige el experimento.
La probabilidad es un numero, entre 0 y 1, asociado a la verosimilutud de que ocurra unsuceso.
La probabilidad es 0 cuando el suseso nunca ocurre.
La probabilidad es 1 cuando el susceso siempre ocurre
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 4 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Ejemplos
Los modelos probabilıstico que rigen el lanzamiento de una moneda y el numero de carasen tres lanzamientos son respectivamente:
resultado probabilidad
cara 0.5cruz 0.5
Cuadro: lanzamiento de una moneda
resultado probabilidad
0 1/81 3/82 3/83 1/8
Cuadro: numero de caras en 3 lanzamientos
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 5 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Metodologıa en ciencias experimentales
El metodo de trabajo habitual en las ciencias experimentales incluye la elaboracion demodelos que permitan la explicacion de un determinado fenomeno.
Los modelos deben ser verificados posteriormente a partir de la observacionexperimental que dara lugar a la obtencion de datos.
En este sentido, la Estadıstica es una “ciencia transversal”que permitira lainterpretacion de datos empıricos obtenidos en otros campos de investigacion:
1 medicina,
2 epidemiologıa,
3 neurociencia,
4 biologıa,
5 medioambiente,
6 ...
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 6 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Historia
La Estadıstica actual es el resultado de la union de dos disciplinas que evolucionaronindependientemente hasta el siglo XIX:
1 La recopilacion de datos y elaboracion de estadısticas es una actividad antiquısima.Ası, la Estadıstica o Ciencia del Estado, se remonta a la antiguedad y surge delinteres de los gobiernos por inventariar de una forma mas o menos regular lapoblacion y las riquezas existentes en su territorio.
2 El calculo de probabilidades constituye la segunda raız de la Estadıstica Moderna,incorporandose a partir del siglo XVII como un importante instrumento de analisispara el estudio de fenomenos economicos y sociales y en general para el estudio defenomenos cuyas causas son demasiado complejas para su posible analisisdeterminıstico.
3 De la union de estas disciplinas aparece mas recientemente la EstadısticaInferencial que permite obtener conclusiones generales (a una poblacion) a partirde resultados empıricos (muestra)
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 7 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Estadıstica Descriptiva y Estadıstica Inferencial
La Estadıstica actual se compone de dos grandes ramas:
1 Estadıstica Descriptiva: son un conjunto de tecnicas orientadas a extraerinformacioin de un conjunto de datos. Para ello se utilizaran tablas, medidasestadısticas (media, varianza,...) y procedimientos graficos.
2 Estadıstica Inferencial: Su objetivo es obtener informacion sobre el modelo
probabilıstico que subyace del experimento aleatorio del que se han obtenido losdatos.
Por ejemplo, la inferencia estadıstica aborda cuestiones como la quesigue: Si al lanzar una moneda 10 veces se han obtenido solo 4 caras¿se puede decir que la moneda esta trucada
Esta materia se centrara en la Estadıstica Descriptiva tambien llamada modernamenteAnalisis de Datos.
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 8 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Tabla de Contenidos
1 Introduccion
2 Poblacion y Muestra
3 Variables CualitativasTablas de FrecuenciasRepresentaciones Graficas
4 Variables Cuantitativas DiscretasTablas de FrecuenciasRepresentaciones graficas
5 Estudio de Variables ContinuasRepresentaciones graficasMedidas de Posicion y DispersionDiagrama de Cajas. Datos atıpicos
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 9 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Poblacion
El objectivo de la Estadıstica Descriptiva es la toma de informacion sobre loselementos, llamados individuos, de un cierto colectivo llamado poblacion.
Ejemplos de poblaciones:
alumnos matriculados en una universidad.
habitantes de un paıs.
coches hechos en una fabrica.
arboles de un bosque, ...
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 10 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Variable estadıstica
Cada una de las caracterıstica de interes de los individuos de una poblacion se conocecomo varible estadıstica. Las variables se suele denotar por letras mayusculas: X, Y , ...
EJemplos
X=“sexo”
Y=”no de hijos”
Cada uno de los posibles valores con los que se manifiesta una varible se denominanmodalidades.
EJemplos
la variable X=“sexo” presenta dos modalidades, que son “hombre” y “mujer”
la variable Y=”no de hijos” puede presentar las modalidades 0, 1, 2, . . .
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 11 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Tipos de variables
Dependiendo de la naturaleza de las modalidades:
Cualitativas: las modalidades son cualidades no medibles
Ejemplos: sexo, nacionalidad, marca de un ordenador,...
Cuantitativas: las modalidades son cantidades numericas
Ejemplos: edad, peso, duracion de una pieza, ...
Dependiendo del numero de posibles valores:
Discretas: no finito o infinito numerable de valores distintos
Ejemplos: no de hijos, no de llamadas a una centralita de telefono, ...
Continuas: toman valores en un intervalo de la recta real.
Ejemplos: peso, tiempo de respuesta de un servidor, ...
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 12 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Censo y Muestra
En los estudios estadısticos de una cierta variable X sera necesario obtener informacionde dicha variable en la poblacion de estudio. La informacion que interesa obtener de lapoblacion suele ser algun “resumen”de X:
valor medio de X (peso medio, salario medio,...),
proporcion de unidades que poseen un cierto atributo (proporcion de fumadores,proporcion de personas con acceso a internet,...), ...
Existen dos estrategias posibles para la recopilacion de datos:
Examinar todas las unidades de la poblacion, es decir, realizar un censo, o
Examinar un subconjunto de la poblacion, denominado muestra, seleccionadoescogido “adecuadamente”para que los resultados obtenido sean extrapolables atoda la poblacion.
Esta claro, que con el primer metodo se pueden describir perfectamente la variables bajoestudio, mientras que mediante el segundo se extrapolan las conclusiones obtenidas en lamuestra a la poblacion (inferencia).
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 13 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Motivos para la realizacion de un muestreo
Es evidente que la inferencia siempre supone un riesgo, por lo que cabrıa preguntarse lasrazones de la amplia utilizacion de las “muestras” frente a la “seguridad” que supone uncenso.
Existen causas que pueden hacer ventajoso el muestreo, como su costo reducido, mayorrapidez y mayor exactitud. Pero, ademas, hay ocasiones en las que no queda otrasolucion que la eleccion de una muestra debido principalmente a que:
1 La poblacion es tan grande que excede las posibilidades del investigador, tantoeconomicas como limitaciones temporales (por ejemplo la poblacion se destruyeantes de que se puedan investigar).
2 La poblacion es suficientemente homogenea como para que cualquier muestrade una buena representacion.
3 El proceso de medida o investigacion es destructivo, como ocurre al consumir uncierto artıculo para juzgar su calidad.
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 14 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Ejemplo 1
Considerese un estudio orientado a conocer el porcentaje de espanoles que tieneacceso a internet.
La poblacion es de mas de 40 millones de personas, y es obvio que obtener informacionde toda la poblacion supone un gran esfuerzo en varios sentidos:
tiempo necesario, y coste economico (se necesitarıa contratar a muchosencuestadores)
dificulad de llegar a todos y cada uno de los espanoles (gente de viaje fuera delpaıs, gente enferma, etc.)
Por tanto, debido a los motivos anteriores, sera conveniente entrevistar a una ciertaparte de la poblacion, una muestra, elegida convenientemente para poder extraerdespues conclusiones a toda la poblacion.
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 15 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Ejemplo 2
Considerese ahora un estudio en el que interesa la duracion media de una determinadamarca de pilas. En este caso la problematica es diferente al caso anterior:
Para poder estudiar la duracion de una pila, se debera usar hasta que se gaste, lo quenos impide volver a usar la pila.
Es decir, de alguna manera se “destruye” este elemento de la poblacion. Si se quisieseprobar todas y cada una de las pilas, nos quedarıamos sin ellas.
En este caso, de nuevo sera conveniente estudiar solo un conjunto de esas pilas y luegoextraer conclusiones mas generales a partir del conjunto que hemos estudiado.
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 16 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Eleccion de la muestra
Por las razones anteriores, en muchos casos es conveniente el uso de muestras, pero paraque podamos extraer conclusiones, es importante que elijamos bien las muestras paranuestros estudios.Por ejemplo, para el caso de el acceso a internet de los espanoles:
elegir a 10 personas de 40 millones es insuficiente, no es representativo.
tampoco sera correcto considerar informacion de personas de Madrid, o elegir apersonas jovenes, ....
En el proceso de muestreo se debera tener en cuenta varios aspectos:
1 El metodo de seleccion de los individuos de la poblacion (tipo de muestreo que seva a utilizar).
2 El tamano de la muestra
3 El grado de fiabilidad de las conclusiones que vamos a presentar, es decir, unaestimacion del error cometido.
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 17 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Software Estadıstico
El objetivo de la estadıstica descriptiva es proporcionar procedimientos para organizar,resumir, presentar graficamenente y analizar informacion contenida en una muestraX1, . . . , Xn de n individuos de una variable de interes X.
Las posibilidades computacionales que presentan los ordenadores actuales, con una grancapacidad de calculo, hace que se puedan automatizar los procesos numericossubyacecentes a los metodos estadısticos. Por lo tanto, la posibilidad de disponer deapoyo informatico es muy importante para que los metodos estadısticos puedan seraplicados directamente en bases de datos reales con tamanos muestrales elevados.
Existen multitude de programas y paquetes informaticos con modulo estadısticos: R,Excel, SPSS, S-Plus, Matlab, ...
En esta materia (y en todo el POP) se utilizara el paquete estadıstico R.
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 18 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
¿Que es R?
R es un lenguaje derivado del S (Bell Labs.) con implementaciones para
manipulacion de datos
calculo matricial
analisis grafico
R Puede ser utilizado como:
Paquete estadıstico: Las principais tecnicas estadısticas y su correspondienteanalisis grafico estan implementadas
Lenguaje de programacion:
Software Libre con codigo fuente de libre accesoCreacion y modificacion de nuevas funcionesAdemas, es posible compartir informacion (funciones, datos, ...) conotros usuarios a traves de paquetes.
El programa R esta disponible para los principales sistemas operativos ( Windows,Linux, MacOS, etc.), y puede ser decargado en http://www.r-project.org/
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 19 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
1 Introduccion
2 Poblacion y Muestra
3 Variables CualitativasTablas de FrecuenciasRepresentaciones Graficas
4 Variables Cuantitativas DiscretasTablas de FrecuenciasRepresentaciones graficas
5 Estudio de Variables ContinuasRepresentaciones graficasMedidas de Posicion y DispersionDiagrama de Cajas. Datos atıpicos
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 20 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Tablas de Frecuencias
El estudio de la distribucion de frecuencias tiene por objeto la construccion de tablas defrecuencias que se pueden utilizar para una mejor presentacion e interpretacion de losdatos
Ejemplo1 - Titanic
El fichero titanic.txt recoge informacion sobre el naufragio del buque Titanic:
clase: primera, segunda, tercera, tripulacion.
sexo: hombre, mujer.
edad: variable binaria con posibles valores: nino, adulto.
superviviente: si,no.
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 21 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Titanic
Codigo R
> datos<-read.table(file="Titanic.txt",header=T)
> datos[1:5,]
clase sexo edad superviviente
1 tercera hombre ni~no no
2 tercera hombre ni~no no
3 tercera hombre ni~no no
4 tercera hombre ni~no no
5 tercera hombre ni~no no
> attach(datos)
> levels(clase)
[1] "primera" "segunda" "tercera" "tripulacion"
> levels(sexo)
[1] "hombre" "mujer"
> levels(edad)
[1] "adulto" "ni~no"
> levels(superviviente)
[1] "no" "si"
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 22 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Frecuencias
Sea X una variable cualitativa con k posibles modalidades o clases C1, . . . , Ck.
A partir de una muestra de n observaciones X1, . . . , Xn de la variable X, se define paracada una de las posibles modalidades Cj :
frecuencia absoluta de Cj (se denota como nj): numero de obversaciones de lamuestra que presenta dicha modalidad
frecuencia relativa de Cj (se denota como fj): proporcion de individuos quepresentan una determinada modalidad y que viene dada por el cociente fj = nj/nentre la frecuencia absoluta y el total de individuos.
clase frecuencia absoluta frecuencia relativa
primera 325 14.8%segunda 285 12.9%tercera 706 32.1%
tripulacion 885 40.2%
2201 100.0%
Cuadro: Tabla de frecuencias de la variable “clase”
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 23 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Titanic
Codigo R
> datos<-read.table("titanic.txt",header=T)
> attach(datos)
> n=length(clase)
> nj=table(clase)
> nj
clase
primera segunda tercera tripulacion
325 285 706 885
> fj=nj/n
> fj
clase
primera segunda tercera tripulacion
0.1476602 0.1294866 0.3207633 0.4020900
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 24 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
1 Introduccion
2 Poblacion y Muestra
3 Variables CualitativasTablas de FrecuenciasRepresentaciones Graficas
4 Variables Cuantitativas DiscretasTablas de FrecuenciasRepresentaciones graficas
5 Estudio de Variables ContinuasRepresentaciones graficasMedidas de Posicion y DispersionDiagrama de Cajas. Datos atıpicos
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 25 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Representaciones Graficas
Con el fin de comunicar rapidamente una imagen visual de los datos, se representan lasfrecuencias mediante distintos tipos de graficas.
A continuacion se relacionan los tipos de representacion mas utilizados que convieneconocer para elegir el mas adecuado a cada caso.
Diagrama de Barras
Polıgono de Frecuencias
Grafivo de Puntos
Grafico de Sectores
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 26 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Diagrama de barras
Para cada modalidad Cj , se representa un rectangulo cuya altura coincide con lafrecuencia (nj) o relativa (fj).
primera segunda tercera tripulación
diagrama de barras de clase
frecuencia
absolu
tas
0200
400
600
800
primera segunda tercera tripulación
diagrama de barras de clase
frecuencia
rela
tiva
s
0.0
0.1
0.2
0.3
0.4
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 27 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Polıgono de frencuencias
De manera similar se obtiene el polıgono de frecuncias:
05
10
15
polígono de frecuencias de clase
ocupantes
frecuencia
absolu
ta
1 2 3 4 5
0.0
0.1
0.2
0.3
polígono de frecuencias de clase
ocupantes
frecuencia
rela
tiva
1 2 3 4 5
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 28 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Grafico de puntos
Otra alternativa es el grafico de puntos, que es como el polıgono de frecuencias salvoque no se conectan las frecuencias con lıneas.
1
2
3
4
5
2 4 6 8 10 12 14
gráfico de puntos de clase
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 29 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Grafico de sectores
Se descompone un cırculo en sectores de area proporcional a la frecuencia de lamodalidad correspondiente.
1
2
3
4
5
gráfico de sectores de clase
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 30 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Codigo R
Los graficos anteriores han sido obtenidos son el siguiente codigo:
>par(mfrow=c(1,2))
>barplot(nj,main=’diagrama de barras de clase’,
ylab="frecuencia absolutas")
>barplot(fj,main=’diagrama de barras de clase’,
ylab="frecuencia relativas")
>par(mfrow=c(1,2))
>plot(nj,type=’l’,main="polıgono de frecuencias de clase",
ylab="frecuencia absoluta")
>plot(fj,type=’l’,main="polıgono de frecuencias de clase",
ylab="frecuencia relativa")
>dotchart(nj,main=’grafico de puntos de clase’)
>pie(nj,col=rainbow(6),main=’grafico de sectores de clase’)
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 31 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
1 Introduccion
2 Poblacion y Muestra
3 Variables CualitativasTablas de FrecuenciasRepresentaciones Graficas
4 Variables Cuantitativas DiscretasTablas de FrecuenciasRepresentaciones graficas
5 Estudio de Variables ContinuasRepresentaciones graficasMedidas de Posicion y DispersionDiagrama de Cajas. Datos atıpicos
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 32 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Tablas de Frecuencias
Sean X1 . . . , Xn una muestra de la variable X cuantitativa discreta con k posiblesmodalidades C1, . . . , Ck ordenadas de forma creciente
C1 < C2 < . . . < CK
De forma analoga al caso de variables cualitativas, se define:
frecuencia absoluta de Cj (se denota como nj): numero de obversaciones de lamuestra que presenta dicha modalidad
frecuencia relativa de Cj (se denota como fj): fj = nj/n
Ademas, ahora se pueden definir frecuencias acumuladas: 1
frecuencia absoluta acumulada de Cj (se denota como Nj): numero deobversaciones que presenta dicha modalidad o alguna de las anteriores
Nj = n1 + . . .+ nj
frecuencia relativa acumulada de Cj (se denota como Fj):
Fj = Nj/n = f1 + . . .+ fj
1En las varibles cualitativas, como son las del ejemplo Titanic, no tienen sentido lasfrecuencias acumuladas ya que no es posible establacer orden en las modalidades.J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 33 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Frecuencias. Propiedades
De las definiciones anteriores se obtiene la siguiente tabla
modalidad frecuencia frecuencia frec.absoluta. frec.relativaabsoluta relativa acumulada acumulada
C1 n1 f1 N1 F1
C2 n2 f2 N2 F2
......
......
...Cj nj fj Nj Fj
......
......
...Ck nk fk Nk = n Fk = 1
total n 1
Propiedades
0 ≤ nj ≤ n 0 ≤ fj ≤ 1 n1 + . . .+ nk = nf1 + . . .+ fk = 1 nj = Nj −Nj−1 fj = Fj − Fj−1
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 34 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Ejemplo Trafico
En un estudio de trafico se ha recabado informacion acerca del numero de ocupantes enlos automoviles. Para ello se conto el numero de ocupantes en 40 automoviles.
1 3 2 2 3 1 1 2 2 1 1 4 3 1 3 2 3 2 2 21 2 5 1 3 1 2 1 3 1 4 1 1 3 4 2 2 1 1 4
obteniendose la tabla frecuencias
clase f.abs. f.rel. f.abs.acu. f.rel.acu.
1 15 0.38 15 0.382 12 0.30 27 0.683 8 0.20 35 0.884 4 0.10 39 0.985 1 0.03 40 1.00
40 1
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 35 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Codigo R
Las tablas anteriores han sido obtenidas con el siguiente codigo:
> ocupantes<-c(1,3,2,2,3,1,1,2,2,1,1,4,3,1,3,2,3,2,2,2,
+ 1,2,5,1,3,1,2,1,3,1,4,1,1,3,4,2,2,1,1,4)
> n=length(ocupantes); nj=table(ocupantes); fj=nj/n;nj
ocupantes
1 2 3 4 5
15 12 8 4 1
> fj
ocupantes
1 2 3 4 5
0.375 0.300 0.200 0.100 0.025
> Nj=as.table(cumsum(nj)); Fj=as.table(cumsum(fj)); Nj
1 2 3 4 5
15 27 35 39 40
> Fj
1 2 3 4 5
0.375 0.675 0.875 0.975 1.000
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 36 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
1 Introduccion
2 Poblacion y Muestra
3 Variables CualitativasTablas de FrecuenciasRepresentaciones Graficas
4 Variables Cuantitativas DiscretasTablas de FrecuenciasRepresentaciones graficas
5 Estudio de Variables ContinuasRepresentaciones graficasMedidas de Posicion y DispersionDiagrama de Cajas. Datos atıpicos
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 37 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Representaciones graficas (I)
Con las frecuencias obtenidas se pueden hacer resumenes graficos que se realizan deforma similar al caso de las variables cualitativas.
1 2 3 4 5
frecuencia absolutas
ocupantes
02
46
81
01
21
4
1 2 3 4 5
frecuencia relativas
ocupantes
0.0
00
.10
0.2
00
.30
1 2 3 4 5
frecuencia absolutas acumuladas
ocupantes
01
02
03
04
0
1 2 3 4 5
frecuencia relativas acumuladas
ocupantes
0.0
0.2
0.4
0.6
0.8
1.0
1
2
3
4
5
ocupantes
Figura: Graficos para ocupantes
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 38 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Codigo R
Los graficos anteriores se obtienen con el siguiente codigo:
>pdf(file="plots.pdf",width=12)
>nf <- layout(matrix(c(1,2,5,3,4,5), 2, 3, byrow=TRUE), respect=TRUE)
>barplot(nj,main="frecuencia absolutas",xlab=’ocupantes’)
>barplot(fj,main="frecuencia relativas",xlab=’ocupantes’)
>barplot(Nj,main="frecuencia absolutas acumuladas",xlab=’ocupantes’)
>barplot(Fj,main="frecuencia relativas acumuladas",xlab=’ocupantes’)
>pie(nj,col=rainbow(6),main=’ocupantes’)
>dev.off()
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 39 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
1 Introduccion
2 Poblacion y Muestra
3 Variables CualitativasTablas de FrecuenciasRepresentaciones Graficas
4 Variables Cuantitativas DiscretasTablas de FrecuenciasRepresentaciones graficas
5 Estudio de Variables ContinuasRepresentaciones graficasMedidas de Posicion y DispersionDiagrama de Cajas. Datos atıpicos
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 40 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Tabla de Frecuencias. Variables Continuas
Cuando la variable en estudio es continua (o discreta con un numero elevado de valoresdistintos) toma tantos posibles valores como numero de observaciones y, por tanto, noes posible escribirlos todos ellos en una columna, como se hizo anteriormente.
Para tabular estos datos conviene agruparlos en unos cuantos intervalos y determinar elnumero de individuos que pertenecen a cada uno de ellos.
Tomar el intervalo como unidad de estudio, en lugar de cada valor de la variable, suponeuna simplificacion pero resulta una perdida de informacion. Por lo tanto, es importanteelegir un numero adecuado de intervalos que equilibre estos dos aspectos.
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 41 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Ejemplo: Cacharros
El fichero cacharros.txt recoge datos recogidos en una fabrica de cacharros.
Hay 59 datos de 4 variables:
”tipo de cacharro’ (codificada con numeros del 1 al 4),
”diametro” (en cm.),
”tiempo de fabricacion” (en min.) y
”precio de venta” (en euros).
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 42 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Ejemplo 3: Cacharros
Para hacer una tabla de frecuencias para la variable ”tiempo’, primero se discretizara enclases
clase frec. frec. fr.abs. fr.rel.absol. relat. acum. acum.
≤ 35 38 0.64 38 0.64(35,60] 15 0.25 53 0.90(60,85] 4 0.07 57 0.97> 85 2 0.03 59 1.00
59 1
Las frecuencias relativas y relativas acumuladas tambien se pueden expresar enporcentajes (64%, 25%, . . . )
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 43 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Codigo R
> cacharros<-read.table("cacharros.txt",header=T)
> attach(cacharros)
> n=length(tiempo)
> (nj=table(cut(tiempo,breaks=c(-Inf,35,60,85,Inf))))
(-Inf,35] (35,60] (60,85] (85, Inf]
38 15 4 2
> (fj=nj/n)
(-Inf,35] (35,60] (60,85] (85, Inf]
0.64406780 0.25423729 0.06779661 0.03389831
> (Nj=cumsum(nj))
(-Inf,35] (35,60] (60,85] (85, Inf]
38 53 57 59
> (Fj=cumsum(fj))
(-Inf,35] (35,60] (60,85] (85, Inf]
0.6440678 0.8983051 0.9661017 1.0000000
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 44 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Codigo R
Tabla de frecuencas con 5 clases> (nj=table(cut(tiempo,breaks=5)))
(11.9,31.4] (31.4,50.9] (50.9,70.5] (70.5,90] (90,109]
29 20 7 2 1
> (fj=nj/n)
(11.9,31.4] (31.4,50.9] (50.9,70.5] (70.5,90] (90,109]
0.49152542 0.33898305 0.11864407 0.03389831 0.01694915
> (Nj=cumsum(nj))
(11.9,31.4] (31.4,50.9] (50.9,70.5] (70.5,90] (90,109]
29 49 56 58 59
> (Fj=cumsum(fj))
(11.9,31.4] (31.4,50.9] (50.9,70.5] (70.5,90] (90,109]
0.4915254 0.8305085 0.9491525 0.9830508 1.0000000
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 45 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
1 Introduccion
2 Poblacion y Muestra
3 Variables CualitativasTablas de FrecuenciasRepresentaciones Graficas
4 Variables Cuantitativas DiscretasTablas de FrecuenciasRepresentaciones graficas
5 Estudio de Variables ContinuasRepresentaciones graficasMedidas de Posicion y DispersionDiagrama de Cajas. Datos atıpicos
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 46 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Histograma (I)
El histograma de un conjunto de datos es un grafico de barras que representan lasfrecuencias con que aparecen las mediciones agrupadas en ciertos intervalos y luegocontar cuantas observaciones caen en cada intervalos. Solo se utiliza con variablescontinuas, y cuando se dispone de una cantidad grande de datos.
Para cada clase, Cj se dibuja un rectanguloapoyado en el eje X cuya base sea elintervalo y cuya area sea proporcional a lafrecuencia nj a representar.
Por lo tanto, la altura (hj) quedadeterminada por el cociente nj/aj entre lafrecuencia nj y la amplitud aj del intervalo.
Histogram of tiempo
tiempo
Fre
qu
en
cy
20 40 60 80 100
05
10
15
20
>hist(tiempo)
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 47 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Histograma
Los histogramas son muy utiles para apreciar la forma de la distribucion de los datos, sise escoge adecuadamente el numero de clases y su amplitud.
Sin embargo, la seleccion del numero de clases y su amplitud que adecuadamenterepresentan la distribucion puede ser complicado:
Un histograma con muy pocas clases agrupa demasiado las observaciones y
un histograma con muchas clases deja muy poscas observaciones en cada una deellas.
Ninguno de los dos extremos es apropidado.
Existen varias reglas para determinar el numero de clases. R por defecto selecciona elnumero de clases siguiendo el llamado metodo de Sturges.
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 48 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Efecto del numero de clases
2 clases
tiempo
Fre
qu
en
cy
0 50 100 150
01
02
03
04
05
0
5 clases
tiempo
Fre
qu
en
cy
0 20 40 60 80 100 120
05
10
15
20
25
30
11 clases
tiempo
Fre
qu
en
cy
20 40 60 80 100
05
10
15
20
25 clases
tiempo
Fre
qu
en
cy
20 40 60 80 100
02
46
81
01
2
>par(mfrow=c(2,2))
>hist(tiempo,breaks=2,main="2 clases")
> hist(tiempo,breaks=5,main="5 clases")
>hist(tiempo,breaks=11,main="11 clases")
>hist(tiempo,breaks=25,main="25 clases")
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 49 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Arbol de Tallo y Hojas
Otro grafico que puede ser utilizado para la representacion de variables continuas es elllamado arbol de tallo y hojas. Este tipo de grafico son faciles de realizar a mano, y sesolıan utilizar como una forma rapida (aunque igual no demasiado pulida) de viasualizarlos datos.
> stem(tiempo)
The decimal point is 1 digit(s) to the right of the |
1 | 23667788
2 | 01111123334446677899
3 | 01233444457
4 | 0344556899
5 | 3569
6 | 349
7 | 4
8 | 6
9 |
10 | 9
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 50 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
1 Introduccion
2 Poblacion y Muestra
3 Variables CualitativasTablas de FrecuenciasRepresentaciones Graficas
4 Variables Cuantitativas DiscretasTablas de FrecuenciasRepresentaciones graficas
5 Estudio de Variables ContinuasRepresentaciones graficasMedidas de Posicion y DispersionDiagrama de Cajas. Datos atıpicos
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 51 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Medidas de Posicion y Dispersion
Hasta ahora se han mostrado, para una variable de interes X, distintas formas depresentar en forma de tablas y graficos una coleccion de datos de dicha variable
X1 . . . , Xn
A veces conviene reducir toda esta informacion en una o varias medidas resumen.Algunas de estas medidas son las que siguen a continuacion:
Medidas de Posicion
Media Muestral
Mediana
Cuantiles
Medidas de Dispersion
Varianza y Desviacion Tıpica
Rango y Rango Intercuartılico
Coeficiente de Variacion
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 52 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Media Muestral
La media muestral se define como el promedio de los datos:
X =X1 + · · ·+Xn
n
Consumo de automovilesEl X=”Consumo de combustible (litros/100km a 90km/h)” de seis automoviles de lamisma marca ha sido de
6,7 6,3 6,5 6,5 6,4 6,6
obteniendose un consumo medio muestral de
X =6,7 + 6,3 + 6,5 + 6,5 + 6,4 + 6,6
6=
32,4
6= 6,5
> consumo<-c(6.7, 6.3, 6.5, 6.5,6.4, 6.6)
mean(consumo)
[1] 6.5
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 53 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Mediana
La media aritmetica puede ser muy sensible a los valores extremos de la variable.
Diametro de un CilindroDiez medidas de la variable X=”diametro de un cilindro (en cm.)” fueron anotadas porun cientıfico como:
3.88 4.09 3.92 3.97 4.02 3.95 4.03 3.92 3.98 40.6
La media aritmetica de los valores anteriores es
X =3,88 + . . .+ 40,6
10= 7,636
Esta medida no representa la posicion central de los datos obtenidos ya que esta muyinfluenciada por el valor 40.6 que claramente un valor ”raro” con respecto al resto de losdatos obtenidos.
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 54 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Mediana
Ante este tipo de situaciones sera conveniente utilizar otra medida mas robusta comopuede ser la mediana.
La mediana es aquel valor Me que divide a la poblacion en dos partes de igual tamano,la mitad son mayores que el y la otra mitad inferior a el.
Supuestos ordenados los datos de menor a mayor X1 ≤ . . . ≤ Xn, entonces
1 Si n es impar, la mediana coincide con el valor central.
2 si n es par, la mediana se calcula como la media de los dos valores centrales
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 55 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Ejemplo. Diametro de un Cilindro (cont.)
Los diametros ordenados son:
3.88 3.92 3.92 3.95 3.97 3.98 4.02 4.03 4.09 40.6.
Como n = 10 es un numero par la mediana se calcula como la media de los dos valorescentrales situados en las posiciones 5 y 6
Me =3,97 + 3,98
2= 3,975
> diametro=c(3.88,4.09,3.92,3.97,4.02,3.95, 4.03, 3.92, 3.98, 40.6)
> mean(diametro)
[1] 7.636
> median(diametro)
[1] 3.975
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 56 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Cuantiles (I)
Se define el cuantil de orden p con 0 < p < 1 como aquel valor xp que divide a dichamuestra en dos partes de tal manera que una proporcion p de la muestra es menor quedicho valor y el resto mayor.
Sea la muestra ordenada X1 ≤ X2 . . . ≤ Xn. Si p es multiplo de de 1/(n− 1) el cuantilxp es el dato situado en la posicion 1 + (n− 1)p. En otro caso se interpola paradeterminar el valor de xp.
Ejemplo. Diametro de un Cilindro (cont.)
La posicion del cuantil 0.25 de los 10 diametros ordenados
3.88 3.92 3.92 3.95 3.97 3.98 4.02 4.03 4.09 40.6
es1 + (10− 1) · 0,25 = 3,25
El diametro que se encuentra en la tercera posicion es 3.92 y el diametro en la cuartaposicion es 3.95. Por lo tanto el cuantil 0.25 se obtiene como
x0,25 = 3,92 + 0,25 · (3,95− 3,92) = 3,9275
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 57 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Cuantiles (II)
Ejemplo. Diametro de un Cilindro (cont.)
De igual modo, la posicion del cuantil 0.45 es
1 + (10− 1) · 0,45 = 5,05
resultandox0,45 = 3,97 + 0,05 · (3,98− 3,97) = 3,9705
Se distinguen tres tipos de cuantiles que dividen a la poblacion en 4, 10 o 100 partes:
1 Cuartiles: son los cuantiles de orden 0.25, 0.50 y 0.75 (dividen a muestra en 4
partes de igual frecuencia).
Normalmente se denotan por Q1, Q2 e Q3 y se denominan primer,segundo y tercer cuartil muestral, respectivamente.El segundo cuartil muestral coincide con la mediana muestral.
2 Deciles: son los cuantiles muestrales de orden 0.1,. . . ,0.9
3 Centiles: son los cuantiles muestrales de orden 0.01,. . . ,0.99
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 58 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Codigo R
Los cuantiles se obtienen en R con la funcion quantile()
> quantile(diametro,probs=c(0.25,0.45))
25% 45%
3.9275 3.9705
> quantile(diametro)
0% 25% 50% 75% 100%
3.8800 3.9275 3.9750 4.0275 40.6000
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 59 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Varianza y Desviacion Tıpica
La varianza muestral es la medida de dispersion por excelencia
s2 =(X1 − X)2 + . . .+ (Xn − X)2
n
La varianza puede ser calculada de de forma mas ”rapida” utilizando la expresionequivalente
s2 =X2
1 + . . .+X2
n
n− X2
Las unidades de s2 son las mismas que las de X al cuadrado. Para mantener la mismaunidad de medida de las observaciones, se define la desviacion tıpica muestral de unconjunto de dados como la raız cuadrada positiva de la varianza:
s =√s2 =
√
(X1 − X)2 + . . .+ (Xn − X)2
n
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 60 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Ejemplo: Consumo de Automoviles (cont.)
Con anterioridad se habıa calculado la media muestral del consumo de automoviles
X =6,7 + 6,3 + 6,5 + 6,5 + 6,4 + 6,6
6=
32,4
6= 6,5
La varianza muestral del consumo es
s2X =(6,7− 6,5)2 + . . .+ (6,6− 6,5)2
6=
0,1
6= 0,0167
Esta cantidad puede ser calculada de forma equivalente como
s2X =6,72 + . . .+ 6,62
6− 6,52 =
253,6
6− 6,52 = 0,0167
La desviacion tıpica muestral de los datos es
sX =√
0,0167 = 0,129
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 61 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Cuasi Varianza Muestral
Se sabe que la varianza muestral s2 tiende a dar valores mas bajos de los esperados. Poreste motivo, en la practica, se suelem utilizar la cuasivarianza S2 y cuasidesviacion tıpicaS muestrales:
S2 =n
n− 1s2 =
(X1 − X)2 + · · ·+ (Xn − X)2
n− 1y S =
√S2
Consumo de AutomovilesLa cuasi-varianza y cuasi-desviacion tıpica muestral de la variable consumo son
S2 =(6,7− 6,5)2 + . . .+ (6,6− 6,5)2
5=
0,1
5= 0,02 y S =
√
0,02 = 0,1414214
> var(consumo)
[1] 0.02
> sd(consumo)
[1] 0.1414214
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 62 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Rango
La medida de dispersion mas simple es el rango o recorrido que corresponde a ladiferencia entre el mayor valor observado de la variable y el menor.
El rango de un conjunto de datos en Excel se calcula con la funcion
=max(datos)-min(datos)
Consumo de Automoviles (cont.)
El rango de consumos es
rango = 6,7− 6,3 = 0,4
> (maximo=max(consumo))
[1] 6.7
> (minimo=min(consumo))
[1] 6.3
> (rango=maximo-minimo)
[1] 0.4
>
> (rango=range(consumo)) # de forma equivalente
[1] 6.3 6.7
> rango[2]-rango[1]
[1] 0.4J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 63 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Rango Intercuartılico
Se define el rango intercuartılico como la diferencia entre el tercer y el primer cuartil. Esdecir, es la longitud del intervalo donde se encuentran el 50% de los datos centrales.
RI = 3o cuartil− 1o cuartil = Q3 −Q1
Consumo de Automoviles (cont.)
El rango de consumos es
RI = 6,575− 6,425 = 0,15
> (Q=quantile(consumo,probs=c(0.25,0.75)))
25% 75%
6.425 6.575
> (RI=Q[2]-Q[1])
75%
0.15
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 64 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Coeficiente de Variacion (I)
Otra medida que se suele utilizar es el coeficiente de variacion (CV). Es una medida dedispersion relativa de los datos y se calcula dividiendo la desviacion tıpica muestral porla media y multiplicando el cociente por 100.
CV = 100S
|X|
Consumo de Automoviles (cont.)
El CV de la variable consumo es
CV = 1000,1414
6,50= 2,176%
CV<-function(X){100*sd(X)/abs(mean(X))}
> CV(consumo)
[1] 2.175713
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 65 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Coeficiente de Variacion (II)
La utilidad del CV estriba en que permite comparar la dispersion o variabilidad de dos omas grupos.
Peso vs. TensionSe ha registrado el peso X (en kg.) y la tension arterial Y (en mmHg.) de 5 pacientes
peso 70 60 56 83 79
tension 150 170 135 180 195
obteniendose
un peso medio X = 69, 6kg. con desviacion tıpica SX = 11,67, y
una tension media de Y = 166 mmHg con desviacion tıpica SY = 23,82.
¿que distribucion es mas dispersa, el peso o la tension arterial?
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 66 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Peso vs. Tension
Si se comparan las desviaciones tıpicas se observa que la desviacion tıpica de la tensionarterial es mucho mayor. Sin embargo, no se pueden comparar dos variables que tienenescalas de medidas diferentes, por lo que se calculan los coeficientes de variacion:
CV de peso = 10011,67
69,6= 16,77%
CV de tension = 10023,82
166= 14,35%
A la vista de los resultados, se observa que la variable peso tiene una mayor dispersion.
> mean(peso); mean(tension)
[1] 69.6
[1] 166
> sd(peso);sd(tension)
[1] 11.67476
[1] 23.82226
> CV(peso);CV(tension)
[1] 16.77408
[1] 14.35076
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 67 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
1 Introduccion
2 Poblacion y Muestra
3 Variables CualitativasTablas de FrecuenciasRepresentaciones Graficas
4 Variables Cuantitativas DiscretasTablas de FrecuenciasRepresentaciones graficas
5 Estudio de Variables ContinuasRepresentaciones graficasMedidas de Posicion y DispersionDiagrama de Cajas. Datos atıpicos
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 68 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Diagrama de Cajas. Datos atıpicos
Los diagramas de caja son representacionesbasadas en los cuartiles y que permiten:
mostrar las principales caracterısticasde la muestra:
posicion, dispersion, asimetrıa,....
identificar la presencia deobservaciuones atıpicas (valoresmissing)
20 40 60 80 100
tiempo
>cacharros<-read.table(file=cacharros.txt’,header=T)
>boxplot(tiempo,horizontal=T,main=’tiempo’)
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 69 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Construccion (I)
Para su construccion se procede del siguiente modo:
1 Se dibuja una caja horizonatal que comienza en el primer cuartil Q1 y termina enel tercer cuartil Q3, con una lınea vertical en la mediana Me.
2 A continuacion se trazan dos lıneas verticales situadas respectivamente a laizquierda de Q1 y derecha Q3 a una distancia de 1,5RI. Estas constituyen lasbarreras interiores.
3 Despues se repite la misma operacion a una distancia de 3RI y estas reciben elnombre de barreras exteriores.
4 Finalmente, se traza un segmento desde cada lado de la caja al dato mas extremoque aparezca dentro de las barreras interioresc
El resultado de esta construccion aparece en la siguiente figura:
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 70 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Construccion (II)
A continuacion se muestra el boxplot construido a partir de los siguientes datos
x<-c(-180,-174,52,600,73,-154,108,-74,31,-450,183,-174,-131,
-67,17,165,-21,-45,4,-33,-45,4,-540)
-500 0 500
atípicos
extremos
atípicos
extremos
Q1 Me Q3
RI
L. interior
1.5RI
L. interior
1.5RI
L. exterior
3RI
L. exterior
3RI
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 71 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Datos atıpicos(I)
Como ya se ha comentado este tipo de graficos permiten la deteccion de datos atıpicos:
La caja del diagrama contiene la mitad central de los datos y cada una de las otrasdos cuartas partes queda a uno de los lados de las caja.
A las observaciones que estan fuera de las barreras interiores (area sombreada enazul) se les llama datos atıpicos. En particular los que caen fuera de las barrerasexteriores (area sombreada en rojo) son los datos atıpicos extremos.
Este tipo de datos requieren una atencion especial:
bien porque corresponden a errores de medida,o bien porque contienen informacion relevante de la variable en estudio.
En cualquier caso sera muy importante la deteccion de dichos valores
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 72 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Datos atıpicos(II)
Con los datos anteriores los valores atıpicos son -450, -540 y 600, siendo este ultimo unatıpico extremo
> x<-c(-180,-174,52,600,73,-154,108,-74,31,-450,183,-174,
-131,-67,17,165,-21,-45,4,-33,-45,4,-540)
> boxplot(x)
> Q=quantile(x,probs=c(0.25,0.5,0.75))
> Q1=as.numeric(Q[1]); Q2=as.numeric(Q[2])
> Q3=as.numeric(Q[3]);RI=Q3-Q1
> #atıpicos
> x[x<Q1-1.5*RI] #inferiores
[1] -450 -540
> x[x>Q3+1.5*RI] #superiores
[1] 600
> #atıpicos extremos
> x[x<Q1-3*RI] #inferiores
numeric(0)
> x[x>Q3+3*RI] #superiores
[1] 600
−400 −200 0 200 400 600
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 73 / 74
Javier Roca Pardiñas mail: [email protected]
Departamento de Estatística e I.O. Universidade de Vigo
Histograma vs. Boxplot
A continuacion se comparan los histogramas y boxplots obtenidos con las variables delejemplo de cacharros.
Histogram of tiempo
tiempo
Fre
quency
20 40 60 80 100
05
10
15
20
20 40 60 80 100
Histogram of diametro
diametro
Fre
quency
10 20 30 40 50 60 70
05
10
15
20
20 30 40 50 60
Histogram of precio
precio
Fre
quency
0 50 150 250
05
10
15
20
25
50 100 150 200 250
>par(mfcol=c(2,3))
>hist(tiempo)
>boxplot(tiempo,horizontal=T)
>hist(diametro)
>boxplot(diametro,horizontal=T)
>hist(precio)
>boxplot(precio,horizontal=T)
J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 74 / 74