Universidad Nacional Autónoma de NicaraguaUNAN-Managua
Curso de Estadística
UNIDAD I
Estadística Descriptiva
Estudiantes:
FAREM-Carazo
Profesor:
MSc. Julio Rito
Vargas Avilés.
II Semestre 2010
“Quien tiene un libro y no lo lee, no se diferencia de
aquel que no sabe leer”
Año académico:
2
La estadística surgió como una necesidad del Estado: el
censo y su descripción política, geográfica y económica.
En el siglo XVII y XVIII nace la probabilidad aplicada a
los juegos de azar que ejerce una fuerte influencia sobre
la estadística.
En el XIX empieza a aplicarse a cuestiones sociales. Y
actualmente se aplica a la administración, ingeniería,
biología, economía, periodismo, política, ...
HISTORIA DE LA ESTADÍSTICA
3
¿Para qué sirve la estadística?
Estadística: Ciencia que reúne, organiza, presenta, analiza e interpreta datos para ayudar a tomar mejores decisiones.
La Ciencia se desarrolla observando hechos, formulando leyes que los explican y realizando experimentos para validar o rechazar dichas leyes
Los modelos que crea la ciencia son de tipo determinista o aleatorio (estocástico)
La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza
Ciencia cuyo objetivo es la obtención y el análisis de datosmediante el uso de medios matemáticos y herramientasinformáticas.
4
Definición
La Estadística es la Ciencia de la
• Sistematización, recogida, ordenación ypresentación de los datos referentes a unfenómeno que presenta variabilidad oincertidumbre para su estudio metódico, conobjeto de
• Deducir las leyes que rigen esos fenómenos,
• y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.
5
Objetivos de la Estadística Descriptiva
Poner de manifiesto las características
más relevantes de los datos y sintetizarlas
en unos pocos parámetros o estadísticos
y⁄o mediante las gráficas adecuadas.
6
Plantear
hipótesis
Obtener
conclusiones
Recoger datos
y analizarlos
Diseñar
experimento
Método científico y estadística
7
Población y muestra
Población : es el conjunto sobre el que estamosinteresados en obtener conclusiones (hacer inferencia).
Generalmente es demasiado grande para poder obtenerlo.
Muestra : es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones)
Debería ser “representativo”
Esta formado por miembros “seleccionados” de la población (individuos, unidades experimentales).
8
CualitativasSi sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos)
Nominales: Si sus valores no se pueden ordenar• Sexo(M/F), Religión(Católico/Protestante/Ateo), Nacionalidad, Fumar (Sí/No)
Ordinales: Si sus valores se pueden ordenar• Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor(nada, poco,
mucho, intenso)
Cuantitativas o NuméricasSi sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos)
Discretas: Si toma valores enteros
• Número de hijos, Número de cigarrillos, Num. de “cumpleaños”
Continuas: Si entre dos valores, son posibles infinitos valores intermedios.
• Altura, Peso, salario, Dosis de medicamento administrado, edad
Tipos de variables
9
Es buena idea codificar las variables como números para poder procesarlas con facilidad en un computador.
Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos. Sexo (Cualit: Códigos arbitrarios)
• 1 = Hombre
• 2 = Mujer
Raza (Cualit: Códigos arbitrarios)• 1 = Blanca
• 2 = Negra,...
• 3 = Mestiza
Felicidad Ordinal: Respetar un orden al codificar.
• 1 = Muy feliz
• 2 = Feliz
• 3 = Infeliz
Se pueden asignar códigos a respuestas especiales como
• 0 = No sabe
• 99 = No contesta...
Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos („missing data‟)
10
Suponga que decide llevar a cabo un estudio del costo
de la comida en los restaurante de una gran ciudad. A
50 restaurantes citadinos se les consultó sobre el
precio promedio de sus platos y se obtuvieron los
siguientes resultados.
EJEMPLO
11
Precio del plato en 50 restaurantes citadinos
50 38 43 56 51 36 25 33 41 44
34 39 49 37 40 50 50 35 22 45
44 38 14 44 51 27 44 39 50 35
31 34 48 48 30 42 26 35 32 63
36 38 53 23 39 45 37 31 39 53
EJEMPLO
12
Precio del plato en 50 restaurantes de la ciudad
14 22 23 25 26 27 30 31 31 32
33 34 34 35 35 35 36 36 37 37
38 38 38 39 39 39 39 40 41 42
43 44 44 44 44 45 45 48 48 49
50 50 50 50 51 51 53 53 56 63
Variable Precio en gráfico Tallo-hoja
Frecuencia Tallo y & Hoja
1.00 1 4
5.00 2 23567
21.00 3 011234455566778889999
13.00 4 0123444455889
8.00 5 000011336
1.00 6 3
Ancho del tallo: 10(decenas)
Cada hoja: 1 caso(s)
Gráfico de Tallo y hoja
El diagrama de tallo y hojas. Es una técnica estadística para representar un
conjunto de datos. Cada valor numérico se divide en dos partes. El o los
dígitos principales forman el tallo y los dígitos secundarios las hojas. Los
tallos están colocados a lo largo del eje vertical, y las hojas de cada
observación a lo largo del eje horizontal.
Representación gráfica de las distribuciones de
frecuencias
Histograma:
Un histograma consiste en
una serie de rectángulos cuyo
ancho es proporcional al
alcance de los datos que se
encuentran dentro de una
clase y cuya altura es
proporcional al número de
elementos que caen dentro de
la clase.
Polígono de frecuencias:Para construir un polígono de
frecuencias señalamos éstas en el
eje vertical y los valores de las
variables que estamos midiendo
en el eje horizontal, del mismo
modo como lo hicimos con el
histograma.
A continuación, graficamos cada
frecuencia de clase trazando un
punto sobre su punto medio y
conectamos los resultantes puntos
sucesivos con una línea recta para
formar un polígono
Representación gráfica de las distribuciones de
frecuencias
Polígono de frecuencias
Gráfico de Curva Normal con
Histograma de frecuencias.
Muestra el comportamiento de los
datos y que tan próximo están de una
distribución normal.
En el ejemplo que nos ocupa puede
verse que hay datos por encima de
normal.
Así mismo hay datos que no alcanzan
llegar a línea normal.
Representación gráfica de las distribuciones de
frecuencias
17
Rango
Calcular el rango es determinar la longitud numérica que existe entre el dato de menor valor y
el de mayor valor.
• Restar el dato menor del dato mayor de la muestra y se obtiene el rango.
• Rango = Máximo - Mínimo
18
La pregunta que estamos analizando ya tiene
sus datos ordenados, ahora determinar a
simple vista cuales son los datos mayor y
menor respectivamente:
Dato Mayor(Máx) $ 63.00
Dato Menor(Min) $ 14.00
19
DISTRIBUCIÓN DE FRECUENCIAS
Se organiza en filas y columnas:
Columna 1: El nombre de la variable que se está analizando.
Columna 2: Las veces que se repiten los datos con las mismas características de la variable, se le llama frecuencia.
Variable Frecuencia
20
DISTRIBUCIÓN DE FRECUENCIAS
Cuando la variable es numérica,
se trata de valores y si éstos son
más de 10 datos diferentes, es
conveniente hacer grupos para
administrarlos con eficiencia. A
cada grupo de datos se le llama
Intervalo o clase.
Intervalos Frecuencia
21
DISTRIBUCIÓN DE FRECUENCIAS
Un intervalo es como un rango,
tiene un dato mayor y un dato
menor y el estilo de
representación puede ser de
varias maneras; la más
generalizada es:
Intervalos Frecuencia
DatoMenor pero menos que DatoMayor o
22
DISTRIBUCIÓN DE FRECUENCIAS
La información en cada intervalo
debe ser única.
Para determinar el número de intervalos
para una distribución, se calcula con la
información del valor del Rango.
C= Rango/10=49/10≈5
Un intervalo es similar al rango, el cual
tiene un dato mayor y un dato menor, solo
que la distancia entre ellos recibe el
nombre de Amplitud o ancho del intervalo
o ancho de clase y se recomienda que se
constante .
Intervalos Frecuencia
14 – 18 1
19 – 23 2
24 – 28 3
29 – 33 5
34 – 38 12
39 – 43 8
44 – 48 8
49 – 53 9
54 – 58 1
59 – 63 1
23
DISTRIBUCIÓN DE FRECUENCIAS
Se sugiere que una distribución
de frecuencias no debe tener
menos de 5 intervalos, ni más
de 15.
Si no se sigue esta convención,
la interpretación de los datos
puede ser demasiado
condensada o muy dispersa y
en ambos casos los resultados
aunque estén bien, no son
objetivos y puede afectar la
toma de decisiones.
24
DISTRIBUCIÓN DE FRECUENCIAS
Determinar el número de intervalos
que sirva a una muestra se basa en
la experiencia o sentido común de la
persona que va a generar la
distribución de frecuencias.
Intervalos Frecuencia
Intervalo 1 Frec. 1
Intervalo 2 Frec. 2
Intervalo 3 Frec. 3
Intervalo 4 Frec. 4
Intervalo 5 Frec. 5
Intervalo 6 Frec. 6
25
Tablas de frecuencia
Exponen la información recogida en la muestra de manera inteligente:
Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad.
Frecuencias relativas (porcentajes unitarios): contabilizan el número de indiviiduos dividido por el total.
Frecuencias acumuladas absolutas y relativas: Acumulan las frecuencias absolutas y relativas. Son especialmente útiles
para calcular cuantiles (como veremos más adelante).
26
Parámetros y estadísticos
Parámetro: Es una cantidad numérica
calculada sobre una población.
La altura media de los individuos de
un país.
La idea es resumir toda la información
que hay en la población en unos
pocos números (parámetros).
Estadístico: Es una cantidad numérica calculada sobre una
población.–La altura media de los que estamos en este aula.
•Somos una muestra (¿representativa?) de la población.
–Si un estadístico se usa para aproximar un parámetro también se le suele
llamar estimador.
27
Estadísticos de forma intuitiva
28
Posición
Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...
Centralización
Indican valores con respecto a los que los datos parecen
agruparse.
• Media, mediana y moda
Dispersión
Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización.
• Desviación típica, varianza, coeficiente de variación, rango
Forma
Asimetría
Apuntamiento o curtosis
Estadísticos
29
Estadísticos de posición
Se define el cuantil de orden a como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada a.
Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
30
Percentil de orden k = cuantil de orden k/100
La mediana es el percentil 50.
El percentil de orden 15 deja por debajo al
15% de las observaciones. Por encima queda
el 85%.
Cuartiles: Dividen a la muestra en 4 grupos con
frecuencias similares.
Primer cuartil = Percentil 25 = Cuantil 0,25.
Segundo cuartil = Percentil 50 = Cuantil 0,5 =
mediana.
Tercer cuartil = Percentil 75 = cuantil 0,75.
Precio de plato en 50 restaurantes de la ciudad
14 22 23 25 26 27 30 31 31 32
33 34 34 35 35 35 36 36 37 37
38 38 38 39 39 39 39 40 41 42
43 44 44 44 44 45 45 48 48 49
50 50 50 50 51 51 53 53 56 63
CALCULO DE PERCENTILES
Alcance intercuartil = Q3- Q1
cf
fLiP
percentil
Pn
inf100
p: percentil a calcular
n. número de datos
∑finf : suma de frec. Inferiores al percentil
Fpercentil: frecuencia del percentil
Li : limite inferior de la clase del percentil
Min = 14 ; Max =63; Q1 = 34; Q3 = 45 ; Q2 = Mn = 39
34125.34125.03412
115.12341
Q
3925.3925.0398
2325392
Q
Fa
1
3
6
11
23
31
39
48
49
50
4581.4481.0448
315.37443
Q
33
x
Fr
1
0.75
0.50
0.25
0P25 P50 P75
Q1 Q2 Q3
mediana
Recorrido o
rango
intercuartílico
OJIVA
P100
34
Ejemplos: El 5% de los restaurantes tiene un precio demasiado bajo. ¿Qué precio se consideran “demasiado bajo”?
• Percentil 5 o cuantil 0,05.
¿Qué precio es superado sólo por el 25% de restaurantes?
• Percentil 75.
El 90% de los precios son normales. ¿Entre qué valores se encuentran los precios extremos?
• Entre el percentil 5 y el 95.
¿Entre qué valores se encuentran la mitad de precios normales” de la muestra?
• Entre 1º y 3º cuartil (Q1 y Q3).
20$75.1975.0192
15.2195
p
4581.4481.0448
315.37443
Q
35
Medidas de Centralización
Añaden unos cuantos casos particulares a las medidasde posición. Son medidas que buscan posiciones(valores) con respecto a los que los datos muestrantendencia a agruparse.
Media („mean‟) Es la media aritmética (promedio) de losvalores de una variable. Suma de los valores divididopor el tamaño muestral.
Media de {2, 2, 3, 7} es (2+2+3+7)/4 = 3,5
Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos.
Centro de gravedad de los datos.
MEDIDAS DE CENTRALIZACIÓN DE DATOS AGRUPADOS
Media Aritmética: para calcular la media aritmética de datos agrupados en una
distribución de frecuencias, asumimos que cada clase esta representada por el
punto medio de la clase (marca de clase).
x50
161...326221116
n
fxx
Intervalos x f fx
14 – 18 16 1 16
19 – 23 21 2 42
24 – 28 26 3 78
29 – 33 31 5 155
34 – 38 36 12 432
39 – 43 41 8 328
44 – 48 46 8 368
49 – 53 51 9 459
54 – 58 56 1 56
59 – 63 61 1 61
9.3950
1995
50
161...221116
x
f : frecuencia de cada clase
x : marca de clase o valor medio
fx: frecuencia por el valor medio de la clase
∑fx: es la suma de los productos fx
n: número total de frecuencias o de datos.
37
Medidas de Centralización Mediana („median‟) Es un valor que divide a las
observaciones en dos grupos con el mismo número deindividuos (percentil 50). Si el número de datos es par,se elige la media de los dos datos centrales.
Mediana de 1, 2, 4, 5, 6, 6, 8 es 5
Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2 = 5.5
Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos.
• Mediana de 1, 2, 4, 5, 6, 6, 800 es 5. ¡La media es 117,7!
Moda („mode‟) Es el(los) valor(es) donde ladistribución de frecuencia alcanza un máximo.
38
Altura mediana
Li : Limite inferior de la clase que contiene a la
mediana.
n : es el número de datos
fmediana:frecuencia de la clase mediana
∑facum: es el valor de la frecuencia acumulada
en las clase que preceden a la clase que
contiene a la mediana.
c: es el valor del tamaño de la clase mediana.
Medidas de Centralización Mediana :La mediana es el valor por debajo se encuentran la
mitad de los datos y por encima la otra mitad. Como los datosse han organizados en distribuciones de frecuencias se haperdido algo de información. Por lo usaremos la siguientefórmula.
cf
fnLiMe
mediana
acum
2
Intervalos x f Fa
14 – 18 16 1 1
19 – 23 21 2 3
24 – 28 26 3 6
29 – 33 31 5 11
34 – 38 36 12 23
39 – 43 41 8 31
44 – 48 46 8 39
49 – 53 51 9 48
54 – 58 56 1 49
59 – 63 61 1 50
25.4025.13958
232539
Me
Li : Limite inferior de la clase que contiene a la
moda.
c: es el valor del tamaño de la clase modal
∆1: diferencia entre las frecuencias de la clase
modal y la clase contigua inferior a la clase
modal.
∆2:diferencia entre las frecuencia de la clase
modal y la clase contigua superior a la clase
modal.
Medidas de Centralización Moda:La moda para datos agrupados se encuentra en la
clase con mayor frecuencia. El problema de la moda es quepuede haber más de una clase que la contenga.
cLiMo
21
1Intervalos x f Fa
14 – 18 16 1 1
19 – 23 21 2 3
24 – 28 26 3 6
29 – 33 31 5 11
34 – 38 36 12 23
39 – 43 41 8 31
44 – 48 46 8 39
49 – 53 51 9 48
54 – 58 56 1 49
59 – 63 61 1 50
75.424075.83454
734 Me
Relación entre la media, la mediana y la moda
Cuando los datos son sesgados es mejor emplear la Md
Propiedades, ventajas y desventajas de la
media
Propiedades:
La suma de las diferencias entre las media muestral y el valor de cada observación es cero.
La media de una constante es la constante.
Si todas las observaciones xi se multiplican por una constante a, la X también se debe multiplicar por ese mismo valor constante.
Propiedades, ventajas y desventajas de la
media
Si se somete a una variable estadística X a un
cambio de origen y escala, Y = a + bX, la media
aritmética de dicha variable X varía en la misma
proporción.
La media de la suma de dos variables es igual a
la suma de sus medias.
Propiedades, ventajas y desventajas de la
media
Ventajas:
Emplea en su cálculo toda la información disponible.
Se expresa en las mismas unidades que la variable en estudio.
Es el centro de gravedad de toda la distribución, representando a todos los valores observados.
Es una valor único.
Propiedades, ventajas y desventajas de la
media
Se trata de un concepto familiar para la mayoría
de las personas.
Es útil para llevar a cabo procedimientos
estadísticos como la comparación de medias de
varios conjuntos de datos.
Propiedades, ventajas y desventajas de la
media
Desventajas:
Se ve adversamente afectada por valores extremos, perdiendo representatividad.
Si el conjunto de datos es muy grande puede ser tedioso su cálculo manual.
No se puede calcular para datos cualitativos.
No se puede calcular para datos que tengan clases de extremo abierto, tanto superior como inferior.
Ventajas y desventajas de la mediana
Ventajas:
Fácil de calcular si el número de
observaciones no es muy grande.
No se ve influenciada por valores
extremos, ya que solo influyen los
valores centrales.
Fácil de entender.
Ventajas y desventajas de la mediana
Se puede calcular para cualquier tipos de
datos cuantitativos, incluso los datos con
clase de extremo abierto.
Es la medida de tendencia central más
representativa en el caso de variables que
solo admiten la escala ordinal.
Ventajas y desventajas de la mediana
Desventajas:
No utiliza en su “cálculo” toda la
información disponible.
No pondera cada valor por el número de
veces que se ha repetido.
Hay que ordenar los datos antes de
determinarla.
Ventajas y desventajas de la moda
Ventajas:
No requiere cálculos.
Puede usarse para datos tanto cuantitativos como cualitativos.
Fácil de interpretar.
No se ve influenciada por valores extremos.
Se puede calcular en clases de extremo abierto.
Ventajas y desventajas de la moda
Desventajas:
Para conjuntos pequeños de datos su valor no tiene casi utilidad, si es que de hecho existe. Solo tiene significado en el caso de una gran cantidad de datos.
No utiliza toda la información disponible.
No siempre existe, si los datos no se repiten.
52
Varianza S2 („Variance‟): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.
Es sensible a valores extremos (alejados de la media).
Sus unidades son el cuadrado de las de la variable.
Desviación típica o estandar („standard deviation‟) Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad(unidades) que la variable.
i
i xxn
S 22 )(1
2SS
MEDIDAS DE VARIABILIDAD
Sean 2, 2, 3, 7: 5.3_
X
25.4)5.37()5.33()5.32()5.32(4
1 22222 S
06.225.4 S
53
Varianza S2:.
1
2
2
2
nn
fxfx
S
VARIABILIDAD PARA DATOS AGRUPADOS
Intervalos x x2 f fx fx2
14 – 18 16 256 1 16 256
19 – 23 21 441 2 42 882
24 – 28 26 676 3 78 2028
29 – 33 31 961 5 155 4805
34 – 38 36 1296 12 432 15552
39 – 43 41 1681 8 328 13448
44 – 48 46 2116 8 368 16928
49 – 53 51 2601 9 459 23409
54 – 58 56 3136 1 56 3136
59 – 63 61 3721 1 61 3721
1995 84165
15050
)1995(84165
2
2
S
150
5.79600841652
S
15.932 S
65.9S
54
Centrados en la media y a una desviación típica dedistancia tenemos más de la mitad de lasobservaciones (izq.)
A dos desviaciones típicas las tenemos a casi todas(dcha.)
55
Coeficiente de variación
Es la razón entre la desviación típica y la media.
Mide la desviación típica en forma de“qué tamaño tiene con respecto a la media”
También se la denomina variabilidad relativa.
Es frecuente mostrarla en porcentajes• Si la media es 80 y la desviación típica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)
Es una cantidad adimensional. Interesante para compararla variabilidad de diferentes variables. Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan más dispersión en peso que en altura.
No debe usarse cuando la variable presenta valoresnegativos o donde el valor 0 sea una cantidad fijadaarbitrariamente
Por ejemplo 0ºC ≠ 0ºF
Los ingenieros electrónicos hablan de la razón „señal/ruido‟(su inverso).
x
SCV
Medidas de Forma: Asimetría
Coeficiente de Asimetría de Pearson:
Fácil de calcular e interpretar.
Cálculo:
s
MdXASP
3
o Interpretación:
ASP
= 0, X=Md Simétrica
> 0, X>Md Asimétrica Positiva
< 0, X<Md Asimétrica Negativa
Medidas de Forma: Asimetría
Coeficiente de Asimetría de Fisher:
No es de fácil cálculo, pero si su interpretación.
3
1
3
3
1
3
ns
fxM
ASF
ns
Xx
ASF
k
i
ii
n
i
i
Datos NO agrupados
Datos Agrupados
58
Asimetría o sesgo
Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.
En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide.
La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.
La media tiende a desplazarse hacia las valores extremos (colas).
Las discrepancias entre las medidas de centralización son indicación de asimetría.
Medidas de Forma: Asimetría
o Interpretación:
ASF
= 0, Simétrica
> 0, Asimétrica Positiva
< 0, Asimétrica Negativa
Medidas de Forma: Kurtosis
Miden si los valores de la distribución
están más o menos concentrados
alrededor de los valores medios de la
muestra (zona central de la distribución).
Se definen tres tipos de distribución según
su grado de Kurtosis:
Medidas de Forma: Kurtosis
Leptocúrtica: grado de concentración elevado.
Mesocúrtica: grado de concentración medio
alrededor de los valores centrales de la variable.
Platicúrtica: grado de concentración reducido.
Medidas de Forma: Kurtosis
3
3
4
1
4
4
1
4
ns
fXM
CK
ns
Xx
CK
k
i
ii
n
i
i
Datos No Agrupados
Datos Agrupados
Interpretación:
CK
=0 Mesocúrtica
>0 Leptocúrtica
<0 Platicúrtica
63
Apuntamiento o curtosis (kurtosis)
Leptocúrtica
138
108
102
97
92
87
82
77
72
67
62
57
52
47
42
37
32
27
16
3
Fre
cu
en
cia
400
300
200
100
0
Platicúrtica
8481787572696663605754514845
Fre
cu
en
cia
160
140
120
100
80
60
40
Los gráficos poseen la misma media y
desviación típica, pero diferente grado
de apuntamiento o curtosis.
La curtosis nos indica el grado de apuntamiento
(aplastamiento) de una distribución con respecto a la
distribución normal o gaussiana.
Es adimensional.
Platicúrtica: curtosis < 0
Mesocúrtica: curtosis = 0
Leptocúrtica: curtosis > 0
Mesocúrtica
99
93
89
85
81
77
73
69
65
61
57
53
49
45
41
37
32
27
Fre
cu
en
cia
300
200
100
0
64
Miden el grado de dispersión (variabilidad)
de los datos, independientemente de su causa.
Amplitud o Rango („range‟): La diferencia entre las
observaciones extremas. 2,1,4,3,8,4. El rango es 8-1=7
Es muy sensible a los valores
extremos.
Rango intercuartílico („interquartile range‟): Es la distancia entre el primer y tercer cuartil.
• Rango intercuartílico = P75 - P25
Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores.
No es tan sensible a valores extremos.
Medidas de dispersión
65
Desigualdad de Chebyshev (1821-1894)
Si un conjunto de datos posee una varianza pequeña
no existirán "muchos valores" alejados de la media.
Precisemos: sea el intervalo alrededor de la media:
kxxkx i
A
0
2
0
22
22
)(1
)(1
)(1
i
entornodelfuerai
ii
entornodeldentroi
i
i
i
i
fxxn
fxxn
S
fxxn
S
66
Demostración:
entornodelfuerai
i
i
entornodelfuerai
i
entornodelfuerai
i
fn
Sk
fSkn
fxxn
S
1
1)(
1
22
2222
2
11
kf
nentornodelfuerai
i La frecuencia relativa de losdatos que caen fuera del intervalode centro media y radio k vecesla varianza es igual o menor que1/k2
67
i
i
i
i yxyxdy
d0)(2)( 2
xxn
y
nyyx
yx
i
i
i i
i
i i
i
1
022
La desviación típica es menor a todas las desviaciones
cuadráticas respecto a cualquier promedio m
LOGO
“ Add your company slogan ”
www.jrvargas.wordpress.com