Download - Curso de Estadística - MSc. Ing. Julio Rito Vargas ... · •Media, mediana y moda

Universidad Nacional Autónoma de NicaraguaUNAN-Managua

Curso de Estadística

UNIDAD I

Estadística Descriptiva

Estudiantes:

FAREM-Carazo

Profesor:

MSc. Julio Rito

Vargas Avilés.

II Semestre 2010

“Quien tiene un libro y no lo lee, no se diferencia de

aquel que no sabe leer”

Año académico:

2

La estadística surgió como una necesidad del Estado: el

censo y su descripción política, geográfica y económica.

En el siglo XVII y XVIII nace la probabilidad aplicada a

los juegos de azar que ejerce una fuerte influencia sobre

la estadística.

En el XIX empieza a aplicarse a cuestiones sociales. Y

actualmente se aplica a la administración, ingeniería,

biología, economía, periodismo, política, ...

HISTORIA DE LA ESTADÍSTICA

3

¿Para qué sirve la estadística?

Estadística: Ciencia que reúne, organiza, presenta, analiza e interpreta datos para ayudar a tomar mejores decisiones.

La Ciencia se desarrolla observando hechos, formulando leyes que los explican y realizando experimentos para validar o rechazar dichas leyes

Los modelos que crea la ciencia son de tipo determinista o aleatorio (estocástico)

La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza

Ciencia cuyo objetivo es la obtención y el análisis de datosmediante el uso de medios matemáticos y herramientasinformáticas.

4

Definición

La Estadística es la Ciencia de la

• Sistematización, recogida, ordenación ypresentación de los datos referentes a unfenómeno que presenta variabilidad oincertidumbre para su estudio metódico, conobjeto de

• Deducir las leyes que rigen esos fenómenos,

• y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.

5

Objetivos de la Estadística Descriptiva

Poner de manifiesto las características

más relevantes de los datos y sintetizarlas

en unos pocos parámetros o estadísticos

y⁄o mediante las gráficas adecuadas.

6

Plantear

hipótesis

Obtener

conclusiones

Recoger datos

y analizarlos

Diseñar

experimento

Método científico y estadística

7

Población y muestra

Población : es el conjunto sobre el que estamosinteresados en obtener conclusiones (hacer inferencia).

Generalmente es demasiado grande para poder obtenerlo.

Muestra : es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones)

Debería ser “representativo”

Esta formado por miembros “seleccionados” de la población (individuos, unidades experimentales).

8

CualitativasSi sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos)

Nominales: Si sus valores no se pueden ordenar• Sexo(M/F), Religión(Católico/Protestante/Ateo), Nacionalidad, Fumar (Sí/No)

Ordinales: Si sus valores se pueden ordenar• Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor(nada, poco,

mucho, intenso)

Cuantitativas o NuméricasSi sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos)

Discretas: Si toma valores enteros

• Número de hijos, Número de cigarrillos, Num. de “cumpleaños”

Continuas: Si entre dos valores, son posibles infinitos valores intermedios.

• Altura, Peso, salario, Dosis de medicamento administrado, edad

Tipos de variables

9

Es buena idea codificar las variables como números para poder procesarlas con facilidad en un computador.

Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos. Sexo (Cualit: Códigos arbitrarios)

• 1 = Hombre

• 2 = Mujer

Raza (Cualit: Códigos arbitrarios)• 1 = Blanca

• 2 = Negra,...

• 3 = Mestiza

Felicidad Ordinal: Respetar un orden al codificar.

• 1 = Muy feliz

• 2 = Feliz

• 3 = Infeliz

Se pueden asignar códigos a respuestas especiales como

• 0 = No sabe

• 99 = No contesta...

Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos („missing data‟)

10

Suponga que decide llevar a cabo un estudio del costo

de la comida en los restaurante de una gran ciudad. A

50 restaurantes citadinos se les consultó sobre el

precio promedio de sus platos y se obtuvieron los

siguientes resultados.

EJEMPLO

11

Precio del plato en 50 restaurantes citadinos

50 38 43 56 51 36 25 33 41 44

34 39 49 37 40 50 50 35 22 45

44 38 14 44 51 27 44 39 50 35

31 34 48 48 30 42 26 35 32 63

36 38 53 23 39 45 37 31 39 53

EJEMPLO

12

Precio del plato en 50 restaurantes de la ciudad

14 22 23 25 26 27 30 31 31 32

33 34 34 35 35 35 36 36 37 37

38 38 38 39 39 39 39 40 41 42

43 44 44 44 44 45 45 48 48 49

50 50 50 50 51 51 53 53 56 63

Variable Precio en gráfico Tallo-hoja

Frecuencia Tallo y & Hoja

1.00 1 4

5.00 2 23567

21.00 3 011234455566778889999

13.00 4 0123444455889

8.00 5 000011336

1.00 6 3

Ancho del tallo: 10(decenas)

Cada hoja: 1 caso(s)

Gráfico de Tallo y hoja

El diagrama de tallo y hojas. Es una técnica estadística para representar un

conjunto de datos. Cada valor numérico se divide en dos partes. El o los

dígitos principales forman el tallo y los dígitos secundarios las hojas. Los

tallos están colocados a lo largo del eje vertical, y las hojas de cada

observación a lo largo del eje horizontal.

Representación gráfica de las distribuciones de

frecuencias

Histograma:

Un histograma consiste en

una serie de rectángulos cuyo

ancho es proporcional al

alcance de los datos que se

encuentran dentro de una

clase y cuya altura es

proporcional al número de

elementos que caen dentro de

la clase.

Polígono de frecuencias:Para construir un polígono de

frecuencias señalamos éstas en el

eje vertical y los valores de las

variables que estamos midiendo

en el eje horizontal, del mismo

modo como lo hicimos con el

histograma.

A continuación, graficamos cada

frecuencia de clase trazando un

punto sobre su punto medio y

conectamos los resultantes puntos

sucesivos con una línea recta para

formar un polígono


frecuencias

Polígono de frecuencias

Gráfico de Curva Normal con

Histograma de frecuencias.

Muestra el comportamiento de los

datos y que tan próximo están de una

distribución normal.

En el ejemplo que nos ocupa puede

verse que hay datos por encima de

normal.

Así mismo hay datos que no alcanzan

llegar a línea normal.


frecuencias

17

Rango

Calcular el rango es determinar la longitud numérica que existe entre el dato de menor valor y

el de mayor valor.

• Restar el dato menor del dato mayor de la muestra y se obtiene el rango.

• Rango = Máximo - Mínimo

18

La pregunta que estamos analizando ya tiene

sus datos ordenados, ahora determinar a

simple vista cuales son los datos mayor y

menor respectivamente:

Dato Mayor(Máx) $ 63.00

Dato Menor(Min) $ 14.00

19

DISTRIBUCIÓN DE FRECUENCIAS

Se organiza en filas y columnas:

Columna 1: El nombre de la variable que se está analizando.

Columna 2: Las veces que se repiten los datos con las mismas características de la variable, se le llama frecuencia.

Variable Frecuencia

20


Cuando la variable es numérica,

se trata de valores y si éstos son

más de 10 datos diferentes, es

conveniente hacer grupos para

administrarlos con eficiencia. A

cada grupo de datos se le llama

Intervalo o clase.

Intervalos Frecuencia

21


Un intervalo es como un rango,

tiene un dato mayor y un dato

menor y el estilo de

representación puede ser de

varias maneras; la más

generalizada es:


DatoMenor pero menos que DatoMayor o

22


La información en cada intervalo

debe ser única.

Para determinar el número de intervalos

para una distribución, se calcula con la

información del valor del Rango.

C= Rango/10=49/10≈5

Un intervalo es similar al rango, el cual

tiene un dato mayor y un dato menor, solo

que la distancia entre ellos recibe el

nombre de Amplitud o ancho del intervalo

o ancho de clase y se recomienda que se

constante .


14 – 18 1

19 – 23 2

24 – 28 3

29 – 33 5

34 – 38 12

39 – 43 8

44 – 48 8

49 – 53 9

54 – 58 1

59 – 63 1

23


Se sugiere que una distribución

de frecuencias no debe tener

menos de 5 intervalos, ni más

de 15.

Si no se sigue esta convención,

la interpretación de los datos

puede ser demasiado

condensada o muy dispersa y

en ambos casos los resultados

aunque estén bien, no son

objetivos y puede afectar la

toma de decisiones.

24


Determinar el número de intervalos

que sirva a una muestra se basa en

la experiencia o sentido común de la

persona que va a generar la

distribución de frecuencias.


Intervalo 1 Frec. 1

Intervalo 2 Frec. 2

Intervalo 3 Frec. 3

Intervalo 4 Frec. 4

Intervalo 5 Frec. 5

Intervalo 6 Frec. 6

25

Tablas de frecuencia

Exponen la información recogida en la muestra de manera inteligente:

Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad.

Frecuencias relativas (porcentajes unitarios): contabilizan el número de indiviiduos dividido por el total.

Frecuencias acumuladas absolutas y relativas: Acumulan las frecuencias absolutas y relativas. Son especialmente útiles

para calcular cuantiles (como veremos más adelante).

26

Parámetros y estadísticos

Parámetro: Es una cantidad numérica

calculada sobre una población.

La altura media de los individuos de

un país.

La idea es resumir toda la información

que hay en la población en unos

pocos números (parámetros).

Estadístico: Es una cantidad numérica calculada sobre una

población.–La altura media de los que estamos en este aula.

•Somos una muestra (¿representativa?) de la población.

–Si un estadístico se usa para aproximar un parámetro también se le suele

llamar estimador.

27

Estadísticos de forma intuitiva

28

Posición

Dividen un conjunto ordenado de datos en grupos con la misma

cantidad de individuos.

• Cuantiles, percentiles, cuartiles, deciles,...

Centralización

Indican valores con respecto a los que los datos parecen

agruparse.

• Media, mediana y moda

Dispersión

Indican la mayor o menor concentración de los datos con

respecto a las medidas de centralización.

• Desviación típica, varianza, coeficiente de variación, rango

Forma

Asimetría

Apuntamiento o curtosis

Estadísticos

29

Estadísticos de posición

Se define el cuantil de orden a como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada a.

Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

30

Percentil de orden k = cuantil de orden k/100

La mediana es el percentil 50.

El percentil de orden 15 deja por debajo al

15% de las observaciones. Por encima queda

el 85%.

Cuartiles: Dividen a la muestra en 4 grupos con

frecuencias similares.

Primer cuartil = Percentil 25 = Cuantil 0,25.

Segundo cuartil = Percentil 50 = Cuantil 0,5 =

mediana.

Tercer cuartil = Percentil 75 = cuantil 0,75.

Precio de plato en 50 restaurantes de la ciudad

14 22 23 25 26 27 30 31 31 32

33 34 34 35 35 35 36 36 37 37

38 38 38 39 39 39 39 40 41 42

43 44 44 44 44 45 45 48 48 49

50 50 50 50 51 51 53 53 56 63

CALCULO DE PERCENTILES

Alcance intercuartil = Q3- Q1

cf

fLiP

percentil

Pn

inf100

p: percentil a calcular

n. número de datos

∑finf : suma de frec. Inferiores al percentil

Fpercentil: frecuencia del percentil

Li : limite inferior de la clase del percentil

Min = 14 ; Max =63; Q1 = 34; Q3 = 45 ; Q2 = Mn = 39

34125.34125.03412

115.12341

Q

3925.3925.0398

2325392

Q

Fa

1

3

6

11

23

31

39

48

49

50

4581.4481.0448

315.37443

Q

33

x

Fr

1

0.75

0.50

0.25

0P25 P50 P75

Q1 Q2 Q3

mediana

Recorrido o

rango

intercuartílico

OJIVA

P100

34

Ejemplos: El 5% de los restaurantes tiene un precio demasiado bajo. ¿Qué precio se consideran “demasiado bajo”?

• Percentil 5 o cuantil 0,05.

¿Qué precio es superado sólo por el 25% de restaurantes?

• Percentil 75.

El 90% de los precios son normales. ¿Entre qué valores se encuentran los precios extremos?

• Entre el percentil 5 y el 95.

¿Entre qué valores se encuentran la mitad de precios normales” de la muestra?

• Entre 1º y 3º cuartil (Q1 y Q3).

20$75.1975.0192

15.2195

p

4581.4481.0448

315.37443

Q

35

Medidas de Centralización

Añaden unos cuantos casos particulares a las medidasde posición. Son medidas que buscan posiciones(valores) con respecto a los que los datos muestrantendencia a agruparse.

Media („mean‟) Es la media aritmética (promedio) de losvalores de una variable. Suma de los valores divididopor el tamaño muestral.

Media de {2, 2, 3, 7} es (2+2+3+7)/4 = 3,5

Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos.

Centro de gravedad de los datos.

MEDIDAS DE CENTRALIZACIÓN DE DATOS AGRUPADOS

Media Aritmética: para calcular la media aritmética de datos agrupados en una

distribución de frecuencias, asumimos que cada clase esta representada por el

punto medio de la clase (marca de clase).

x50

161...326221116

n

fxx

Intervalos x f fx

14 – 18 16 1 16

19 – 23 21 2 42

24 – 28 26 3 78

29 – 33 31 5 155

34 – 38 36 12 432

39 – 43 41 8 328

44 – 48 46 8 368

49 – 53 51 9 459

54 – 58 56 1 56

59 – 63 61 1 61

9.3950

1995

50

161...221116

x

f : frecuencia de cada clase

x : marca de clase o valor medio

fx: frecuencia por el valor medio de la clase

∑fx: es la suma de los productos fx

n: número total de frecuencias o de datos.

37

Medidas de Centralización Mediana („median‟) Es un valor que divide a las

observaciones en dos grupos con el mismo número deindividuos (percentil 50). Si el número de datos es par,se elige la media de los dos datos centrales.

Mediana de 1, 2, 4, 5, 6, 6, 8 es 5

Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2 = 5.5

Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos.

• Mediana de 1, 2, 4, 5, 6, 6, 800 es 5. ¡La media es 117,7!

Moda („mode‟) Es el(los) valor(es) donde ladistribución de frecuencia alcanza un máximo.

38

Altura mediana

Li : Limite inferior de la clase que contiene a la

mediana.

n : es el número de datos

fmediana:frecuencia de la clase mediana

∑facum: es el valor de la frecuencia acumulada

en las clase que preceden a la clase que

contiene a la mediana.

c: es el valor del tamaño de la clase mediana.

Medidas de Centralización Mediana :La mediana es el valor por debajo se encuentran la

mitad de los datos y por encima la otra mitad. Como los datosse han organizados en distribuciones de frecuencias se haperdido algo de información. Por lo usaremos la siguientefórmula.

cf

fnLiMe

mediana

acum

2

Intervalos x f Fa

14 – 18 16 1 1

19 – 23 21 2 3

24 – 28 26 3 6

29 – 33 31 5 11

34 – 38 36 12 23

39 – 43 41 8 31

44 – 48 46 8 39

49 – 53 51 9 48

54 – 58 56 1 49

59 – 63 61 1 50

25.4025.13958

232539

Me

Li : Limite inferior de la clase que contiene a la

moda.

c: es el valor del tamaño de la clase modal

∆1: diferencia entre las frecuencias de la clase

modal y la clase contigua inferior a la clase

modal.

∆2:diferencia entre las frecuencia de la clase

modal y la clase contigua superior a la clase

modal.

Medidas de Centralización Moda:La moda para datos agrupados se encuentra en la

clase con mayor frecuencia. El problema de la moda es quepuede haber más de una clase que la contenga.

cLiMo

21

1Intervalos x f Fa

14 – 18 16 1 1

19 – 23 21 2 3

24 – 28 26 3 6

29 – 33 31 5 11

34 – 38 36 12 23

39 – 43 41 8 31

44 – 48 46 8 39

49 – 53 51 9 48

54 – 58 56 1 49

59 – 63 61 1 50

75.424075.83454

734 Me

Relación entre la media, la mediana y la moda

Cuando los datos son sesgados es mejor emplear la Md

Propiedades, ventajas y desventajas de la

media

Propiedades:

La suma de las diferencias entre las media muestral y el valor de cada observación es cero.

La media de una constante es la constante.

Si todas las observaciones xi se multiplican por una constante a, la X también se debe multiplicar por ese mismo valor constante.


media

Si se somete a una variable estadística X a un

cambio de origen y escala, Y = a + bX, la media

aritmética de dicha variable X varía en la misma

proporción.

La media de la suma de dos variables es igual a

la suma de sus medias.


media

Ventajas:

Emplea en su cálculo toda la información disponible.

Se expresa en las mismas unidades que la variable en estudio.

Es el centro de gravedad de toda la distribución, representando a todos los valores observados.

Es una valor único.


media

Se trata de un concepto familiar para la mayoría

de las personas.

Es útil para llevar a cabo procedimientos

estadísticos como la comparación de medias de

varios conjuntos de datos.


media

Desventajas:

Se ve adversamente afectada por valores extremos, perdiendo representatividad.

Si el conjunto de datos es muy grande puede ser tedioso su cálculo manual.

No se puede calcular para datos cualitativos.

No se puede calcular para datos que tengan clases de extremo abierto, tanto superior como inferior.

Ventajas y desventajas de la mediana

Ventajas:

Fácil de calcular si el número de

observaciones no es muy grande.

No se ve influenciada por valores

extremos, ya que solo influyen los

valores centrales.

Fácil de entender.


Se puede calcular para cualquier tipos de

datos cuantitativos, incluso los datos con

clase de extremo abierto.

Es la medida de tendencia central más

representativa en el caso de variables que

solo admiten la escala ordinal.


Desventajas:

No utiliza en su “cálculo” toda la

información disponible.

No pondera cada valor por el número de

veces que se ha repetido.

Hay que ordenar los datos antes de

determinarla.

Ventajas y desventajas de la moda

Ventajas:

No requiere cálculos.

Puede usarse para datos tanto cuantitativos como cualitativos.

Fácil de interpretar.

No se ve influenciada por valores extremos.

Se puede calcular en clases de extremo abierto.

Ventajas y desventajas de la moda

Desventajas:

Para conjuntos pequeños de datos su valor no tiene casi utilidad, si es que de hecho existe. Solo tiene significado en el caso de una gran cantidad de datos.

No utiliza toda la información disponible.

No siempre existe, si los datos no se repiten.

52

Varianza S2 („Variance‟): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.

Es sensible a valores extremos (alejados de la media).

Sus unidades son el cuadrado de las de la variable.

Desviación típica o estandar („standard deviation‟) Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad(unidades) que la variable.

i

i xxn

S 22 )(1

2SS

MEDIDAS DE VARIABILIDAD

Sean 2, 2, 3, 7: 5.3_

X

25.4)5.37()5.33()5.32()5.32(4

1 22222 S

06.225.4 S

53

Varianza S2:.

1

2

2

2

nn

fxfx

S

VARIABILIDAD PARA DATOS AGRUPADOS

Intervalos x x2 f fx fx2

14 – 18 16 256 1 16 256

19 – 23 21 441 2 42 882

24 – 28 26 676 3 78 2028

29 – 33 31 961 5 155 4805

34 – 38 36 1296 12 432 15552

39 – 43 41 1681 8 328 13448

44 – 48 46 2116 8 368 16928

49 – 53 51 2601 9 459 23409

54 – 58 56 3136 1 56 3136

59 – 63 61 3721 1 61 3721

1995 84165

15050

)1995(84165

2

2

S

150

5.79600841652

S

15.932 S

65.9S

54

Centrados en la media y a una desviación típica dedistancia tenemos más de la mitad de lasobservaciones (izq.)

A dos desviaciones típicas las tenemos a casi todas(dcha.)

55

Coeficiente de variación

Es la razón entre la desviación típica y la media.

Mide la desviación típica en forma de“qué tamaño tiene con respecto a la media”

También se la denomina variabilidad relativa.

Es frecuente mostrarla en porcentajes• Si la media es 80 y la desviación típica 20 entonces

CV=20/80=0,25=25% (variabilidad relativa)

Es una cantidad adimensional. Interesante para compararla variabilidad de diferentes variables. Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos

presentan más dispersión en peso que en altura.

No debe usarse cuando la variable presenta valoresnegativos o donde el valor 0 sea una cantidad fijadaarbitrariamente

Por ejemplo 0ºC ≠ 0ºF

Los ingenieros electrónicos hablan de la razón „señal/ruido‟(su inverso).

x

SCV

Medidas de Forma: Asimetría

Coeficiente de Asimetría de Pearson:

Fácil de calcular e interpretar.

Cálculo:

s

MdXASP

3

o Interpretación:

ASP

= 0, X=Md Simétrica

> 0, X>Md Asimétrica Positiva

< 0, X<Md Asimétrica Negativa


Coeficiente de Asimetría de Fisher:

No es de fácil cálculo, pero si su interpretación.

3

1

3

3

1

3

ns

fxM

ASF

ns

Xx

ASF

k

i

ii

n

i

i

Datos NO agrupados

Datos Agrupados

58

Asimetría o sesgo

Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.

En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide.

La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.

La media tiende a desplazarse hacia las valores extremos (colas).

Las discrepancias entre las medidas de centralización son indicación de asimetría.


o Interpretación:

ASF

= 0, Simétrica

> 0, Asimétrica Positiva

< 0, Asimétrica Negativa

Medidas de Forma: Kurtosis

Miden si los valores de la distribución

están más o menos concentrados

alrededor de los valores medios de la

muestra (zona central de la distribución).

Se definen tres tipos de distribución según

su grado de Kurtosis:


Leptocúrtica: grado de concentración elevado.

Mesocúrtica: grado de concentración medio

alrededor de los valores centrales de la variable.

Platicúrtica: grado de concentración reducido.


3

3

4

1

4

4

1

4

ns

fXM

CK

ns

Xx

CK

k

i

ii

n

i

i

Datos No Agrupados

Datos Agrupados

Interpretación:

CK

=0 Mesocúrtica

>0 Leptocúrtica

<0 Platicúrtica

63

Apuntamiento o curtosis (kurtosis)

Leptocúrtica

138

108

102

97

92

87

82

77

72

67

62

57

52

47

42

37

32

27

16

3

Fre

cu

en

cia

400

300

200

100

0

Platicúrtica

8481787572696663605754514845

Fre

cu

en

cia

160

140

120

100

80

60

40

Los gráficos poseen la misma media y

desviación típica, pero diferente grado

de apuntamiento o curtosis.

La curtosis nos indica el grado de apuntamiento

(aplastamiento) de una distribución con respecto a la

distribución normal o gaussiana.

Es adimensional.

Platicúrtica: curtosis < 0

Mesocúrtica: curtosis = 0

Leptocúrtica: curtosis > 0

Mesocúrtica

99

93

89

85

81

77

73

69

65

61

57

53

49

45

41

37

32

27

Fre

cu

en

cia

300

200

100

0

64

Miden el grado de dispersión (variabilidad)

de los datos, independientemente de su causa.

Amplitud o Rango („range‟): La diferencia entre las

observaciones extremas. 2,1,4,3,8,4. El rango es 8-1=7

Es muy sensible a los valores

extremos.

Rango intercuartílico („interquartile range‟): Es la distancia entre el primer y tercer cuartil.

• Rango intercuartílico = P75 - P25

Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores.

No es tan sensible a valores extremos.

Medidas de dispersión

65

Desigualdad de Chebyshev (1821-1894)

Si un conjunto de datos posee una varianza pequeña

no existirán "muchos valores" alejados de la media.

Precisemos: sea el intervalo alrededor de la media:

kxxkx i

A

0

2

0

22

22

)(1

)(1

)(1

i

entornodelfuerai

ii

entornodeldentroi

i

i

i

i

fxxn

fxxn

S

fxxn

S

66

Demostración:

entornodelfuerai

i

i

entornodelfuerai

i

entornodelfuerai

i

fn

Sk

fSkn

fxxn

S

1

1)(

1

22

2222

2

11

kf

nentornodelfuerai

i La frecuencia relativa de losdatos que caen fuera del intervalode centro media y radio k vecesla varianza es igual o menor que1/k2

67

i

i

i

i yxyxdy

d0)(2)( 2

xxn

y

nyyx

yx

i

i

i i

i

i i

i

1

022

La desviación típica es menor a todas las desviaciones

cuadráticas respecto a cualquier promedio m

LOGO

“ Add your company slogan ”

www.jrvargas.wordpress.com

Download - Curso de Estadística - MSc. Ing. Julio Rito Vargas ... · •Media, mediana y moda

Top Related