indices descriptivos y n=1

CAPTULO 5

Aprendiendo a definir, aplicar e interpretar las

medidas descriptivas en Psicologa

Rocio Tron lvarez

Margarita Chvez Becerra

Un criterio que frecuentemente es utilizado para evaluar los hallazgos de las

investigaciones aplicadas es el criterio estadstico, el cual recurre a conceptos y

procedimientos estadsticos con la finalidad de conocer el comportamiento de la

o las variables de inters.

Estos procedimientos estadsticos pertenecen a las denominadas estadstica

descriptiva y estadstica inferencial. El anlisis de los datos a nivel descriptivo

incluye una serie de conceptos y procedimientos que permiten clasificar,

representar, resumir y describir el comportamiento de las variables objeto de

estudio.

Entre otros procedimientos, los mtodos estadsticos descriptivos ms utilizados

comprenden la organizacin, representacin y descripcin de datos a travs de

tablas, grficas, medidas o ndices de tendencia central y de dispersin. Estos

mtodos son el contenido clsico de la literatura dedicada al estudio de la

estadstica aplicada en cualquier rea de conocimiento, adems los ndices de

tendencia central y de dispersin son las medidas cuantitativas bsicas para la

comprensin y aplicacin de anlisis estadsticos ms avanzados.

Bajo estas consideraciones, el propsito del presente captulo se centra en la

exposicin, aplicacin, clculo e interpretacin de las medidas o ndices de

tendencia central y dispersin.

Medidas de tendencia central

Las medidas de tendencia central son los ndices estadsticos descriptivos ms

comunes, y se definen como aquellas medidas que resumen un conjunto de

datos en un valor numrico, lo que permite conocer la concentracin de los datos

en torno a un valor central. Las medidas de tendencia central ms usuales son

la moda, la mediana y la media.

La moda es la nica medida que se puede obtener con datos en cualquier escala

de medicin, para la mediana los datos deben de ser cuando menos ordinales y

finalmente, la media requiere que los datos sean numricos, es decir, que se

encuentren en escala de intervalo o de razn.

La moda

La moda (Mo) es la medida de tendencia central ms fcil de obtener y se define

como la categora o puntuacin que se repite un mayor nmero de veces, o bien

en otras palabras que se presenta con mayor frecuencia. La moda se puede

obtener por simple inspeccin, como se har evidente por medio de los ejemplos

que aqu se presentan.

A continuacin se muestra la forma de obtener la moda cuando los datos se

expresan en diferentes niveles de medicin (nominal, ordinal o de

intervalo/razn) y en diferentes formas de presentacin de los datos, ya sea un

conjunto de datos ordenados por su magnitud, una distribucin de frecuencia

simple o bien una distribucin de datos agrupados. Cada uno de los siguientes

ejemplos se acompaa de su representacin grfica mostrando el valor de la

moda.

La moda cuando los datos son nominales

Considrense los siguientes problemas por los que asisti un grupo de 100 nios

a la clnica universitaria de la salud (ver tabla 5.1).

Con estos datos se identifica la categora que se repite un mayor nmero de

veces (mayor frecuencia), la que corresponde a la categora de problemas de

conducta, por lo que Mo problemas de conducta (ver figura 5.1).

Figura 5.1. Tipo de problema por el que 100 nios asistieron

a la clnica universitaria.

La moda cuando los datos son ordinales

Un grupo de 120 personas de la tercera edad, califican el servicio de atencin de

las clnicas del ISSSTE de la siguiente forma (ver tabla 5.2).

Tabla 5.1. Tipo de problema

Categoras f

Problemas auditivos 10

Problemas de lenguaje 20

Problemas de conducta 40

Problemas visuales 15

Problemas de lecto-escritura 15

100n

0

10

20

30

40

Auditivos Conducta Lecto-escritura

f

Tipo de problema

Mo

Moda

Con mayor frecuencia las personas de la tercera edad califican el servicio de

atencin como malo, siendo esta categora la que asume el valor de la moda

Mo Malo (ver figura 5.2).

Figura 5.2. Calificacin al servicio de atencin que se proporciona

en las clnicas del ISSSTE.

La moda cuando los datos son numricos (escala de intervalo o de

razn)

Un conjunto de datos ordenados por su magnitud

Considrese la serie de datos ordenados de menor a mayor (ver figura 5.3).

Tabla 5.2. Calidad de la atencin

Calidad de la atencin f

Psimo 15

Malo 63

Regular 30

Bueno 10

Muy bueno 2

120n

0

10

20

30

40

50

60

70

Psimo Malo Regular Bueno Muy bueno

f

Calificacin

Mo

Moda

Figura 5.3. Horas de estudio extra clase a la semana de ocho

estudiantes universitarios a finales de semestre.

La moda para este grupo de estudiantes es de 10 horas de estudio, por ser la

puntuacin que se repite un mayor nmero de veces (Mo = 10). Cabe aclarar

que la moda es el valor que se repite un mayor nmero de veces o el ms

frecuente, y no la frecuencia de esta puntuacin (3 veces se presenta el valor

10).

Por otra parte existen situaciones en las que: a) dos puntuaciones adyacentes

comparten la frecuencia mayor, b) dos puntuaciones no adyacentes tienen la

mayor de las frecuencias, c) cuando existen tres o ms puntuaciones no

adyacentes que comparten la frecuencia mayor y d) todas las puntuaciones

tienen la misma frecuencia.

a) En el caso en el que dos puntuaciones adyacentes comparten la frecuencia

mayor, la moda es el promedio de las dos puntuaciones (ver figura 5.4).

Figura 5.4. Horas de estudio de trece estudiantes.

La moda para este conjunto de observaciones es 10, dado que 9 ms 11 igual a

20, dividido entre dos es igual a 10: 9 11 20 / 2 10 , 10Mo horas de estudio

b) Cuando dos puntuaciones no adyacentes comparten la frecuencia mayor se

dice que existen dos modas y se denomina a ese conjunto de datos como

bimodal (ver figura 5.5).

5 7 8 8 9 9 9 11 11 11 13 14 16

5 5 9 10 10 10 11 14

Figura 5.5. Horas de estudio de once estudiantes.

En este caso la moda es 6 y 10 (bimodal); ya que ambas aparecen con una

frecuencia de dos, 6 10Mo y horas de estudio (ver figura 5.6).

Figura 5.6. Horas de estudio.

c) Cuando en un conjunto de datos existen tres o ms puntuaciones no

adyacentes que comparten la frecuencia mayor, se dice que el conjunto de datos

es multimodal (ver figura 5.7).

Figura 5.7. Horas de estudio de diez estudiantes.

4 5 6 6 7 8 9 10 10 11 12

5 6 6 7 8 8 9 10 10 11

Mo

Mo

0

0,5

1

1,5

2

4 5 6 7 8 9 10 11 12

f

Horas

Mo

La moda es 6, 8 y 10, ( 6, 8 10Mo y horas de estudio ). En la figura 5.8 se

presenta la frecuencia de las horas de estudio con sus respectivos valores

modales.

Figura 5.8. Frecuencia de horas de estudio.

d) Cuando todas las puntuaciones tienen la misma frecuencia, se dice que

no existe moda (ver figura 5.9).

Figura 5.9. Horas de estudio de ocho estudiantes.

En este conjunto de datos no hay moda.

Datos ordenados en una distribucin de frecuencia simple

Para obtener la moda cuando los datos se presentan en una distribucin de

frecuencia simple se debe, primeramente observar la frecuencia ms alta y

posteriormente identificar la categora o puntaje al que le corresponde esa

frecuencia ms alta.

5 7 8 9 11 13 14 16

0

0,5

1

1,5

2

5 6 7 8 9 10 11

f

Horas de estudio

Mo Mo

Mo

Si se observa la tabla 5.3 que presenta las horas de estudio de un grupo de 30

estudiantes, tenemos que la frecuencia ms alta es 10, y esta frecuencia

corresponde al puntaje de 8 horas de estudio, por lo tanto la moda es 8 ( =

8 ).

En la figura 5.10 se presentan estos datos y se resalta el valor modal

Figura 5.10. Frecuencia de horas de estudio a la semana.

Tabla 5.3. Horas de estudio

Horas f

5 3

6 5

7 8

8 10

9 3

10 1

Mo

0

2

4

6

8

10

5 6 7 8 9 10

f

Horas

Frecuencia mayor Moda

Datos ordenados en una distribucin de frecuencia agrupada

En una distribucin de frecuencia agrupada, la moda se designa como el punto

medio del intervalo de clase con la frecuencia mayor.

Para obtener la moda se siguen los siguientes pasos:

1. Observar la frecuencia ms alta.

2. Identificar el intervalo al que le corresponde esa frecuencia ms alta.

3. Calcular el punto medio del intervalo con la frecuencia ms alta.

En la tabla 5.4 se presenta el nmero de aciertos obtenidos en el examen de

admisin a la carrera de Psicologa, por un grupo de 120 aspirantes.

La frecuencia ms alta es 45 y corresponde al intervalo de 51 a 65 aciertos, al

calcular el punto medio se suma 51 ms 65 y se divide entre dos:

58

2

116

2

6551 58 ,Mo aciertos la que se representa en la figura 5.11.

Tabla 5.4. Nmero de aciertos obtenidos

en el examen de ingreso a la carrera de

Psicologa

N de aciertos /Punto medio

Marca de clase

f Intervalo de clase

21 - 35 28 20

36 - 50 43 25

51- 65 58 45

66- 80 73 15

81- 95 88 10

96- 110 103 5

Frecuencia mayor Intervalo

Figura 5.11. Nmero de aciertos en un examen de ingreso

a la carrera de psicologa.

La mediana

La mediana (Mdn) es el valor que divide a un conjunto de datos ordenados por

su magnitud o a una distribucin de frecuencias en dos partes iguales, de tal

forma que la mitad de las puntuaciones son menores a la mediana y la otra mitad

son mayores a ella. Lo que origina que quede igual nmero de puntuaciones en

cada mitad.

La obtencin de la mediana para datos ordenados por su magnitud vara

dependiendo de si el conjunto de observaciones es impar o par.

1. Cuando se tiene un conjunto de datos impares la mediana es el valor que

divide en dos partes iguales ese conjunto de observaciones, por lo que

queda el 50% de datos debajo de ese valor y el otro 50% arriba de ste.

Por ejemplo, en la tabla 5.5 se muestran los puntajes de Coeficiente

Intelectual (CI) de nueve nios que asisten a terapia de educacin

especial, en ella se puede observar que el puntaje 79 (que ocupa la quinta

posicin), es el valor que divide en dos partes iguales este conjunto de

observaciones (quedando 4 valores menores a 79 y 4 mayores), por lo

que el valor de la mediana corresponde al CI de 79 ( =

79 ).

0

10

20

30

40

50

28 43 58 73 88 103

f

Aciertos

Mo

Tabla 5.5. Coeficiente intelectual de nueve nios

CI 75 76 77 78 79 80 81 82 83

Posicin 1a 2 a 3 a 4 a 5 a 6 a 7 a 8 a 9 a

50% Mdn = 79 50%

2. En el caso de un conjunto de datos pares, el valor de la mediana ser el

promedio de los dos valores centrales; considrense los puntajes de Coeficiente

Intelectual (CI) de 12 nios que se presentan en la tabla 5.6, como son doce

datos, la mediana se encuentra entre los valores centrales 84 y 86 (sexta y

sptima posicin), esto es, son los valores centrales porque dejan cinco

puntuaciones debajo de ellas y cinco por arriba, valores que se promedian y se

obtiene que 852

170

2

8684

( 85Mdn puntos de CI ).

Tabla 5.6. Coeficiente intelectual de doce nios

CI 74 76 78 80 82 84 86 88 90 92 94 96

Posicin 1 a 2 a 3 a 4 a 5 a 6 a 7 a 8 a 9 a 10a 11a 12a

50% 85Mdn 50%

La mediana en distribuciones de frecuencia simple

Para el clculo de la mediana cuando los datos se ordenan en una distribucin

de frecuencia simple, se siguen los siguientes pasos:

1) Se obtiene la frecuencia acumulada fa de los datos de la distribucin.

2) Se calcula la posicin de la mediana, sumndole 1 al total de

observaciones (n) y dividindolo entre 2. Posicin de la mediana 2

1n

.

3) Se localiza la posicin de la mediana en la columna de frecuencia

acumulada.

4) Se identifica a qu puntaje corresponde esa posicin, siendo ste el valor

de la mediana.

Frecuentemente, a la obtencin de la mediana, mediante este procedimiento, se

le denomina mediana aproximada.

A manera de ejemplo, se tiene en la tabla 5.7 el nmero de errores de ortografa,

en un ensayo de diez cuartillas, de 91 estudiantes universitarios. Siguiendo los

pasos antes sealados tenemos que:

1. Se calcula la frecuencia acumulada de la distribucin, la que se

obtiene al sumar la frecuencia con la que se presenta un puntaje, ms

la frecuencia anterior (como se ejemplifica en la tercera columna de la

Tabla 5.7).

2. Se obtiene la posicin de la mediana al sumarle 1 al total de

observaciones y se divide entre dos: 91 1 92

462 2

. El valor de

la mediana ocupa la posicin 46.

3. Se localiza la posicin de la mediana (46) en la columna de frecuencia

acumulada, la que est contenida en la 60fa .

4. Se identifica a qu puntaje o valor corresponde la 60fa , en este

caso le corresponde al 6, por lo que ste es el valor que divide la

distribucin en dos partes iguales 6 errores ortogrficosMdn .

De acuerdo al valor de la mediana se puede afirmar que el 50% de los

estudiantes cometi 6 o ms errores de ortografa, o bien, que el 50% obtuvo 6

o menos errores.

La mediana se representa grficamente, lo que se consigue trazando el polgono

de frecuencias del nmero de errores de ortografa, posteriormente en el eje de

las X se ubica el valor de la mediana y se traza una lnea paralela al eje de las

Y, hasta tocar los bordes del polgono, tal y como aparece en la figura 5.12.

Tabla 5.7. Errores de ortografa en un

ensayo de 10 cuartillas

No. de

errores

f

Obtencin

de fa

fa

2 2 2 2

3 7 2+7=9 9

4 14 9+14=23 23

5 21 23+21=44 44

6 16 44+16=60 60

7 12 60+12=72 72

8 9 72+9=81 91

9 8 81+8=89 89

10 2 89+2=91 91

= 91

En esta fa se encuentran contenidas desde la primera hasta la posicin 60. Por lo que es aqu en donde se ubica la posicin 46

Mdn=6

Figura 5.12. Nmero de errores de ortografa.

La mediana exacta con distribuciones de frecuencia simple

La mediana exacta cuando los datos estn organizados en una distribucin de

frecuencia simple, se calcula utilizando la frmula siguiente:

f

fan

LiMdn

2

En donde:

Li Lmite inferior real de la clase que contiene a la mediana aproximada

n Nmero total de observaciones

fa Frecuencia acumulada anterior al puntaje que contiene a la mediana

aproximada

f Frecuencia del puntaje en el que se encuentra la mediana

aproximada

Para obtener la mediana exacta con los datos presentados en la tabla 8, hay que

seguir los siguientes pasos:

0

5

10

15

20

25

f

Nmero de errores

Mdn= 6

1. Obtener la posicin de la mediana al dividir el total de observaciones entre

dos:

5.45

2

91. El valor de la mediana ocupa la posicin 45.5.

2. Se obtiene la frecuencia acumulada para la distribucin.

3. Se localiza la posicin de la mediana en la columna de frecuencia

acumulada (la que se encuentra en la 60fa ).

4. Se identifica que el valor que ocupa la posicin nmero 45.5,

corresponde a 6 errores de ortografa, siendo ste el valor con base al

cual se desarrolla la frmula.

f

fan

LiMdn

2

De acuerdo a los datos de la tabla 5.8, se tiene:

5.5Li (se obtiene restando .5 al 6, que es el valor que contiene a la

mediana aproximada)

91n

44fa

16if

Sustituyendo:

9144

45.5 44 1.52 25.5 5.5 5.5

16 16 16

5.5 0.0938 5.5939 6 6

nfa

Mdn Lif

Mdn

Empleando esta frmula se tiene el mismo resultado 6Mdn que con el

procedimiento de la mediana aproximada, sin embargo, con este procedimiento

se obtiene en lugar de un valor aproximado (mediana aproximada) un valor

exacto (mediana exacta).

La mediana exacta en distribuciones de frecuencia agrupada

Su clculo se realiza de manera similar al de las distribuciones de frecuencia

simple, con la salvedad de que en la frmula, se incluye la amplitud de intervalo

de clase.

Tabla 5.8. Errores de ortografa en un

ensayo de 10 cuartillas

Lmite inferior

real (Li)

No. de

errores

f

fa

1.5 2 2 2

2.5 3 7 9

3.5 4 14 23

4.5 5 21 44

5.5 6 16 60

6.5 7 12 72

7.5 8 9 91

8.5 9 8 89

9.5 10 2 91

n=91

fa

f Mdn = 6

cf

fan

LiMdn

2

En donde:

Li Lmite inferior real del intervalo que contiene a la mediana

aproximada

n Nmero total de observaciones

fa Frecuencia acumulada anterior al intervalo que contiene a la

mediana aproximada

f Frecuencia del intervalo en el que se encuentra la mediana

aproximada

c Amplitud del intervalo de clase (nmero de elementos que contiene

el intervalo, se obtiene 1Ls Li ).

Para ilustrar lo anterior, considrese el nmero de aciertos en el examen de

ingreso a la carrera de Psicologa por 130 estudiantes, para la estimacin de la

mediana exacta con datos en una distribucin de frecuencia agrupada (ver tabla

5.9).

Para identificar el intervalo que contiene a la mediana aproximada se divide el

total de observaciones entre dos,

2

n y el resultado se busca en la columna de

frecuencia acumulada.

El total de observaciones n=130, se divide entre dos:

65

2

130

2

n, valor que

indica que la mediana aproximada ocupa la posicin 65, se busca en la columna

de la frecuencia acumulada; en este ejemplo, la frecuencia 65 se ubica en el

intervalo de 51 a 65 aciertos. Una vez identificado el intervalo, el lmite inferior

real corresponde a 50.5, se determina la amplitud del intervalo de clase que

corresponde a 15 y con esta informacin se procede a desarrollar la frmula.

En donde:

50.5 51 .05 50.5Li

130n

45fa 45f

15 65 51 1 15c

Sustituyendo:

Tabla 5.9. Nmero de aciertos en el

examen de ingreso a la carrera de

Psicologa

Intervalo de clase

f fa

21 35 20 20

36 50 25 45

51- 65 45 90

66- 80 15 105

81- 95 15 120

96- 110 10 130

130n

fa

f

Intervalo que contiene a la Mediana

575716.57

666.65.50154444.05.501545

205.50

1545

45655.5015

45

452

130

5.502

Mdn

cf

fan

LiMdn

Por lo que en este caso, el valor que divide la distribucin en dos partes iguales

es 57 57Mdn , es decir, el 50% de los aspirantes obtienen 57 o ms aciertos

en el examen de ingreso a la carrera de Psicologa.

Su representacin grfica se obtiene de la misma forma sealada con la

distribucin de frecuencia simple (ver figura 5.13).

Figura 5.13. Nmero de aciertos en un examen de ingreso a la universidad.

La media

La media es el ndice de tendencia central ms sensible, importante, y

frecuentemente utilizado en el anlisis de las investigaciones psicolgicas.

Se define como la suma de las puntuaciones o valores de la caracterstica

medida, dividida entre el nmero total de puntuaciones, por lo que en esencia es

un promedio. Es comn encontrar en los textos de estadstica denotar a la media

como X , sin embargo, tambin puede encontrarse en algunos textos de

Psicologa como Y .

0

10

20

30

40

50

28 43 58 73 88 103

f

Aciertos

Mdn=57

La expresin numrica para la obtencin de la media es:

n

X

X

n

i

i 1

En donde:

X Notacin de la media y se le refiere como X barra o testada

n Nmero de valores observados

iX Cada uno de los elementos del conjunto de datos observados

La definicin y frmula anterior corresponden a lo que se denomina media

aritmtica, la ms usual y frecuente.

A fin de mostrar la obtencin de la media aritmtica, considrese el nmero de

errores de tipo ortogrfico, durante una tarea de dictado, a cinco nios de

segundo ao. Donde el nmero de errores por nios fue: 8, 10, 12, 13 y 14,

identificando los elementos de la frmula de la media, se tiene que:

5n

iX 8, 10, 12, 13, y 14

Sustituyendo en frmula de la media:

5

18 10 12 13 14 57

11.4 115 5

n

i

i

X

Xn

Este resultado indica que los cinco nios cometieron en promedio 11 errores de

tipo ortogrfico en la tarea de dictado 11X .

La media en distribuciones de frecuencia simple

El clculo de la media en distribuciones de frecuencia simple se obtiene

desarrollando la siguiente frmula:

nXf

X

n

i

ii 1

En donde:

X Notacin de la media


iX Cada uno de los elementos del conjunto

if Nmero de veces (frecuencia) con que aparece cada uno de los

elementos del conjunto

iiXf Producto de cada uno de los elementos del conjunto por su

frecuencia

Continuando con el ejemplo anterior, pero con un mayor nmero de datos, se

presenta en el tabla 5.10 una distribucin de frecuencia de los errores de tipo

ortogrficos que cometieron 48 nios.

Sustituyendo en la frmula se tiene que:

48

18 4 9 6 10 9 11 11 12 9 13 6 14 3

48

52510.93 11

48

n

i i

i

f X

Xn

Este resultado indica que en promedio los cuarenta y ocho nios cometieron 11

errores ortogrficos en el dictado ( 11X ) y la media se representa en la figura

5.14.

Tabla 5.10. Nmero de errores ortogrficos

que cometieron 48 nios de segundo ao de

primaria

N de errores

if

iiXf

8 4 32

9 6 54

10 9 90

11 11 121

12 9 108

13 6 78

14 3 42

48n 525

48

1

n

i

iiXf

iX

Figura 5.14. Nmero de errores de ortografa de un grupo de 48

nios de 2 ao de primaria.

La media en distribuciones de frecuencia agrupada

El clculo de la media en distribuciones de frecuencia agrupada, se obtiene

desarrollando la misma frmula que se emplea con distribuciones de frecuencia

simple, con la variante de que se toma iX como el punto medio del intervalo de

clase:

n

Xf

X

n

i

ii 1

En donde:

X Notacin de la media


iX Punto medio del intervalo de clase 2

LsLi

if Frecuencia (nmero de veces) con que aparece cada uno de los

elementos del conjunto de datos

iiXf Producto de cada punto medio por su frecuencia

A partir del ejemplo del nmero de aciertos en el examen de ingreso a la carrera

de Psicologa, se calcular la media para datos agrupados (ver tabla 5.11):

0

2

4

6

8

10

12

8 9 10 11 12 13 14

f

Errores de ortografa

Media=11

Sustituyendo la sumatoria de los productos de cada uno de los valores de iX

por su respectiva frecuencia

130

1

7690n

i

iiXf en la frmula:

130

17690

59130

n

i i

i

f X

Xn

Conociendo la media, se tiene que los 130 estudiantes obtuvieron en promedio

59 aciertos ( 59X ) en el examen de ingreso a la universidad (ver figura 5.15).

Figura 5.15. Nmero de aciertos en el examen de ingreso a la carrera de Psicologa en una universidad.

Tabla 5.11. Distribucin de frecuencia de los aciertos obtenidos en el

examen de ingreso a la carrera de Psicologa en una universidad

Intervalo de clase Punto medio

iX

if

iiXf

21 - 35 28 20 560

36 - 50 43 25 1075

51 - 65 58 45 2610

66 - 80 73 15 1095

81 - 95 88 15 1320

96 - 110 103 10 1030

130n

130

1

n

i

iiXf

7690

0

10

20

30

40

50

28 43 58 73 88 103

f

Aciertos

Media=59

Propiedades de la media

La media tiene dos propiedades que es importante conocer y tener presentes.

a) La primera propiedad enuncia, que la suma de las desviaciones de las

puntuaciones respecto a la media es igual a cero, representndola

estadsticamente:

n

i

i XX1

0

Para ilustrar esta propiedad se deben seguir los siguientes pasos:

1. Obtener la media n

X

X

n

i

i 1

2. Restar la media a cada una de las puntuaciones XX i

3. Sumar estas diferencias

n

i

i XX1

Para ejemplificar esta propiedad en la tabla 5.12, se presentan los errores de

sustitucin de la letra b por d en un dictado de una prosa, en cinco nios que

cursan el tercer ao de primaria.

Tabla 5.12. Errores de sustitucin

en el dictado de una prosa

iX XX i

2 4

4 2

6 0

8 2

10 4

5

305

1

n

Xn

i

i 0

5

1

n

i

i XX

Siguiendo los pasos sealados se tiene:

1- Media 65

30

5

1

n

X

X

n

i

i

2- Restar la media a cada una de las puntuaciones

61068666462 XX 3- Sumar estas diferencias

5

1

4 2 0 2 4 0n

i

X X

Esto es: 5

1

0n

i

i

X X

Al sumar las diferencias de cada puntaje con respecto a la media, la suma es

igual a 0, tal y como lo enuncia esta primera propiedad.

b) La segunda propiedad de la media enuncia, que la suma de los cuadrados

de las desviaciones respecto a la media, es menor que la suma de los

cuadrados de las desviaciones respecto a cualquier otro valor del conjunto

de datos observados, que no sea la media. Esta propiedad se conoce

como mnimos cuadrados y en notacin estadstica se expresa como:

2 2

1 1

n n

i i n

i i

X X X X

Para mostrar esta propiedad, nuevamente se recurre a los datos de los errores

de sustitucin de la letra b por d.

En la tabla 5.13 se presentan los clculos necesarios para poder desarrollar la

suma de los cuadrados de las diferencias respecto a la media ( 6X ).

2

1

n

i

i

X X

1) Obtener la diferencia de cada puntaje con respecto a la media

2 6 , 4 6 , 6 6 , 8 6 10 6iX X y

2) Elevar a cuadrado cada una de las diferencias de los puntajes con

respecto a la media

3) Sumar cada una de las diferencias elevadas al cuadrado

2222225

1

61068666462XX i

n

i

2 2 2 2 2

4 2 0 2 4 16 4 0 4 16 40

Esto es: 5 2

1

40n

i

i

X X

El desarrollo para obtener la suma de los cuadrados de las desviaciones

respecto a cualquier otro valor del conjunto de datos observados, que no sea la

media 2

1

n

i n

i

X X

, se presenta en la tabla 5.14 y como se puede tomar

cualquier valor, en este ejemplo se elige el segundo valor 42 X . Por lo que:

Tabla 5.13. Desarrollo numrico de los cuadrados

de las diferencias respecto a la media

iX XX i 2XX i

21 X 4 16

42 X 2 4

63 X 0 0

84 X 2 4

105 X 4 16

5

305

1

n

Xn

i

i 0

5

1

n

i

XX 5 2

1

40n

i

i

X X

1) Obtener la diferencia de cada puntaje con respecto al valor igual a 4

42 X

410,48,46,44,422 XX i

2) Elevar al cuadrado cada una de las diferencias de los puntajes con

respecto al valor cuatro 42 X

2222222 410,48,46,44,42 XX i

3) Sumar cada una de las diferencias elevadas al cuadrado

5 5

2 2 2 2 2 2 2

2

1 1

4 2 0 2 4 6

4 0 4 16 36 60

n n

i i

i i

X X X

Esto es: 5

2

2

1

60n

i

i

X X

Con lo anterior queda demostrada la segunda propiedad de la media, siendo

menor la sumatoria de los cuadrados de las desviaciones de los puntajes con

respecto a la media, que la sumatoria de los cuadrados de las desviaciones de

los puntajes con respecto a cualquier otro valor.

Tabla 5.14. Desarrollo numrico para obtener la suma de

los cuadrados de las desviaciones respecto a 42 X

iX 4iX 2

4iX

21 X -2 4

42 X 0 0

63 X 2 4

84 X 4 16

105 X 6 36

5

305

1

n

Xn

i

i

52

1

4 60n

i

i

X

2

1

40n

i

i

X X

<

2

1

60n

i n

i

X X

Medidas de dispersin

La dispersin se refiere a la variabilidad que existe en un conjunto de

observaciones, de tal manera que si todas las puntuaciones son iguales no hay

variabilidad, pero s las puntuaciones son diferentes, la variabilidad se presenta

en mayor o menor medida. La magnitud de esta variabilidad ser mayor, cuando

existan diferencias considerables entre las puntuaciones de un conjunto de

datos; por otro lado esta magnitud ser menor cuando las diferencias entre las

puntuaciones sean muy pequeas. Los ndices estadsticos descriptivos que

permiten estimar cuantitativamente este grado de dispersin, variabilidad o

heterogeneidad de un conjunto de datos, son las medidas de dispersin.

Las medidas de dispersin a revisar en este apartado son: el rango, la desviacin

estndar, la varianza y el coeficiente de variabilidad. Para poder calcular estas

medidas es necesario que las variables sean numricas.

El rango

El rango permite conocer la variacin o dispersin total de un conjunto de

observaciones; es el ndice de dispersin ms sencillo de conocer, ya que slo

es necesario obtener la diferencia entre el puntaje ms alto Pa y el puntaje

ms bajo Pb .

Con el fin de mostrar la obtencin del rango, considrese el siguiente conjunto

de datos que representa el nmero de berrinches de un nio, registrados durante

cinco das: 8, 9, 10, 11, 12. Con estos datos, el rango se obtiene al restar de la

puntuacin ms alta la puntuacin ms baja, esto es, 12 8 4Pa Pb , por lo

que la variacin total de los berrinches del nio durante los cinco das de registro

fue de 4.

Este rango es conocido como rango excluyente, por que deja fuera una de las

puntuaciones, es decir, al tener 5 datos y el obtener un rango de 4 se excluye un

valor. Para no dejar una puntuacin fuera se puede recurrir al rango incluyente,

el que se obtiene al sumar una unidad al resultado de la diferencia entre la

puntuacin ms alta y la ms baja 1 12 8 1 5Pa Pb , en este caso s

se consideran los cinco los valores.

Rango en distribuciones de frecuencia simple y frecuencia agrupada

El rango es una medida que no est influida por la frecuencia en la que se

presentan los datos, de este modo tanto en una distribucin de frecuencia simple

como en una agrupada, para obtener el rango, slo se requiere restar a la

puntuacin ms alta la puntuacin ms baja Pa Pb , tal y como se realiz con

los datos organizados de menor a mayor.

Para ejemplificar la obtencin del rango de datos organizados en una distribucin

de frecuencia simple, en la tabla 5.15 se presenta la distribucin del nmero de

errores de ortografa en un ensayo de 10 cuartillas en que incurren 91

estudiantes de nivel medio superior, obtenindose un rango de variacin total de

8 errores ortogrficos, dado que la puntuacin ms alta es 10 y la ms baja es 2

( 10 2 8Pa Pb )

Para obtener el rango de variacin de datos presentados en una distribucin de

frecuencia agrupada, considrese la distribucin del nmero de aciertos logrados

en el examen de ingreso a la carrera de Psicologa, por 130 estudiantes (ver

tabla 5.16). Como la puntuacin ms alta es 110 y la ms baja 21, se tiene que

el rango de variacin de los aciertos en el examen es de 89 aciertos, dado que

110 21 89Pa Pb .

Tabla 5.15. Errores de ortografa

en un ensayo de 10 cuartillas

N de errores if

2 2

3 7

4 14

5 21

6 16

7 12

8 9

9 8

10 2

91n

Tabla 5.16. Aciertos obtenidos en

el examen de ingreso a la carrera

de Psicologa

Intervalo de clase if

21 - 35 20

36 - 50 25

51 - 65 45

66 - 80 15

81 - 95 15

96 - 110 10

130n

Puntuacin ms alta

Puntuacin ms baja

Puntuacin ms alta

Puntuacin ms baja

Desviacin estndar o tpica

Es la medida estadstica descriptiva ms ampliamente utilizada para la

estimacin de la dispersin o variabilidad de un conjunto de observaciones;

mediante este ndice se analiza y mide la variacin de las caractersticas de las

variables en estudio, entre individuos.

La desviacin estndar s , se define como el promedio de dispersin de un

conjunto de observaciones con respecto a su media.

Para el clculo de la desviacin estndar se requiere de las desviaciones de los

puntajes con respecto a la media XX i , elevadas cada una de ellas al

cuadrado 2XX i , para posteriormente sumarlas. Elevar al cuadrado las

diferencias entre cada uno de los valores y su media evita que al obtener la

sumatoria, sta sea igual a cero. La suma de las diferencias al cuadrado es

conocida como suma cuadrtica o suma de cuadrados, la cual se divide entre el

total de observaciones y del resultado de la divisin, se obtiene raz cuadrada, lo

que nos proporciona el valor de la desviacin estndar.

Enseguida se presentan los pasos a seguir cuando se calcula la desviacin

estndar con datos organizados de menor a mayor o de mayor a menor, tanto

en distribuciones de frecuencia simple como en datos agrupados.

La frmula para obtener el valor de la desviacin estndar en un conjunto de

datos organizados de mayor a menor o de menor a mayor es:

n

XX

s

n

i

i

1

2

En donde:

s Smbolo de la desviacin estndar

XX i Restar la media a cada uno de los puntajes

2XX i Elevar al cuadrado cada una de las diferencias

n

i

i XX1

2 Sumar cada una de las diferencias elevadas al

cuadrado (suma cuadrtica o suma de cuadrados)

2

1

n

i

i

X X

n

Dividir la suma de cuadrados entre el nmero de datos

n

XXn

i

i

1

2

obtener la raz cuadrada de la suma de cuadrados entre

el nmero de datos

Ejemplo. Al aplicar el inventario de depresin de Beck a ocho estudiantes

universitarios, se obtienen los puntajes que aparecen en la tabla 5.17; en donde

tambin se muestran los clculos necesarios implicados en el desarrollo de la

frmula:

n

XX

s

n

i

i

8

1

2

Desarrollando la frmula:

1) Clculo de la media

13.518

409

8

1

n

X

X

n

i

i

2) Obtener la diferencia (restar) de cada puntaje con respecto a la media

(39 51.13),(44 51.3), 48 51.13 ,...,(60 51.13)iX X

3) Elevar al cuadrado cada una de las diferencias de los puntajes con respecto a la media

2 22 2 2( 12.13) ,( 7.13) , 3.13 ,..., (8.88)iX X

4) Sumar las diferencias al cuadrado y dividirlas entre el nmero de datos

8 2

1147 50.7 9.766 ... 78.77 361

45.138 8

n

i

i

X X

n

5) Obtener la raz de la sumatoria de las diferencias al cuadrado entre el

nmero de datos

Tabla 5.17. Puntajes de depresin en el inventario de Beck

obtenidos por 8 estudiantes universitarios

iX XX i 2XX i

39 -12.13 147

44 -7.13 50.77

48 -3.13 9.766

51 -0.13 0.0156

53 1.88 3.516

56 4.88 23.77

58 6.88 47.27

60 8.88 78.77

8

1

409

8

n

i

i

X

n

8 2

1

361n

i

i

X X

8 2

1 45.13 6.7

n

i

i

X X

sn

La desviacin estndar para estos datos es de 6.7, redondeando 7 7s , es

decir, en promedio los puntajes de depresin varan 7 puntos con relacin a la

media.

Desviacin estndar para distribuciones de frecuencia simple

La estimacin de la desviacin estndar para datos presentados en esta

modalidad a diferencia de como se calcul con los datos ordenados, requiere

incorporar a la frmula, la multiplicacin de las frecuencias con que aparecen los

datos en la distribucin, por las desviaciones al cuadrado de cada puntaje con

respecto a la media, tal y como lo indica la frmula:

n

XXf

s

n

i

ii

1

2

En donde:




2XXf ii Multiplicar la frecuencia con que aparecen los datos por cada una de las diferencias elevadas al cuadrado

n

i

ii XXf1

2 Sumar los productos de las frecuencias por cada una

de las diferencias elevadas al cuadrado

n

XXfn

i

ii

1

2

Dividir la suma, de los productos de las frecuencias por

cada una de las diferencias elevadas al cuadrado, entre el nmero de datos

n

XXfn

i

ii

1

2

Obtener la raz cuadrada de la divisin de los productos

de las frecuencias por cada una de las diferencias elevadas al

cuadrado, entre el nmero de datos

Para mostrar su desarrollo en la tabla 5.18 se muestran los puntajes de

depresin en el inventario de Beck, obtenidos por 35 estudiantes universitarios,

y las operaciones requeridas para el desarrollo de la frmula.

Tabla 5.18. Desarrollo numrico para obtener la desviacin estndar con

el mtodo de las diferencias cuadrticas

iX if iiXf XX i 2XX i 2

XXf ii

39 3 117 -11.14 124.1 372.3

44 4 176 -6.140 37.70 150.8

48 7 336 -2.140 4.580 32.06

51 8 408 0.860 0.740 5.917

53 6 318 2.860 8.180 49.08

56 4 224 5.860 34.34 137.4

58 2 116 7.860 61.78 123.6

60 1 60 9.860 97.22 97.22

35n 1755

35

1

n

i

iiXf

3.96835

1

2

n

i

ii XXf

Desarrollando:

1) Estimacin de la media

14.5035

1755

35

1

n

Xf

X

n

i

ii

2) Restar la media a cada uno de los puntajes

(39 50.14),(44 50.14), 48 50.14 ,...,(60 50.14)iX X

3) Elevar al cuadrado cada una de las diferencias

2 22 2 2( 11.14) ,( 6.14) , 2.14 ,..., (9.86)iX X

4) Multiplicar la frecuencia con que aparecen los datos, por cada una de las

diferencias elevadas al cuadrado

35 2

1

3(124.1),4(37.7),7 4.58 ,...,1(97.22)n

i i

i

f X X

5) Sumar los productos de las frecuencias por cada una de las diferencias

elevadas al cuadrado

35 2

1

372.3 150.8 32.06 ... 97.22 968.3n

i i

i

f X X

6) Dividir la suma, de los productos de la frecuencia por cada una de las

diferencias elevadas al cuadrado, entre el nmero de datos

67.27

35

3.968

35

1

2

n

XXfn

i

ii

7) Obtener la raz cuadrada de la divisin de los productos de la frecuencia

por cada una de las diferencias elevadas al cuadrado, entre el nmero de

datos

526.567.27

35

1

2

n

XXf

s

n

i

ii

La desviacin estndar para estos datos es de 5 5s , por lo que se dice que

el promedio de dispersin de los puntajes de depresin con respecto a su media,

es de 5 puntos para la muestra estudiada.

La estimacin de la desviacin estndar utilizando el clculo de las diferencias

al cuadrado, tal y como en los ejemplos anteriores se realiz, se designa como

el mtodo de las diferencias cuadrticas.

Existe un mtodo alterno para conocer la desviacin estndar, que se desarrolla

sin calcular los cuadrados de las desviaciones de las puntuaciones con respecto

a la media, se efecta con los puntajes originales, por lo que se le denomina

mtodo de puntuaciones originales y proporciona el mismo resultado que el

mtodo de desviaciones al cuadrado, su frmula es:

21

2

Xn

Xf

s

n

i

ii

En donde:





X La media


2ii Xf Multiplicacin de cada uno de los elementos del conjunto

elevado l cuadrado por su frecuencia

Desarrollando este mtodo de puntuaciones originales, con el ejemplo anterior

se tiene que (ver tabla 5.19):

1) Elevar al cuadrado cada una de las puntuaciones

2 2 2 2 2(39) ,(44) ,(48) ,...,(60)iX

2) Multiplicar la frecuencia de cada puntaje por el cuadrado de cada una de

las puntuaciones

2( ) 3(1521),4(1936),7 2304 ,...,1(3600)i if X

3) Obtener la sumatoria de los productos de las frecuencias por el cuadrado

de cada uno de los valores observados

352

1

( ) 4563 7744 16128 ... 3600 88969n

i i

i

f X

Didividir la suma de los productos de las frecuencias por el cuadrado de

las puntuaciones entre el nmero de estudiantes

254135

88969)( 2

35

1

n

Xf i

n

i

i

Tabla 5.19. Desarrollo numrico para obtener la desviacin

estndar con el mtodo de puntuaciones originales

iX if iiXf 2

iX 2)( ii Xf

39 3 117 1521 4563

44 4 176 1936 7744

48 7 336 2304 16128

51 8 408 2601 20808

53 6 318 2809 16854

56 4 224 3136 12544

58 2 116 3364 6728

60 1 60 3600 3600

35n 1755

35

1

n

i

iiXf

88969)( 235

1

i

n

i

i Xf

4) Obtener la media y elevarla al cuadrado

14.5035

1755

35

1

n

Xf

X

n

i

ii

2514)14.50()( 22 X

5) Restar a la divisin, de la sumatoria de los productos de las frecuencias

por el cuadrado de las puntuaciones entre el nmero de observaciones,

la media elevada al cuadrado 2)(X

2725142541)(

)(2

235

1

Xn

Xf i

n

i

i

6) Obtener la raz cuadrada

Como se puede observar, con el mtodo de puntuaciones originales y el de

diferencias al cuadrado, se obtiene el mismo resultado, una desviacin estndar

de 5 puntos en el inventario de depresin 5s .

Desviacin estndar para distribuciones de frecuencia agrupada

El clculo de la desviacin estndar en distribuciones de frecuencia agrupada, al

igual que ocurre con las distribuciones de frecuencia simple se puede realizar

tanto con el mtodo de puntuaciones originales como por el de las diferencias

cuadrticas, con la salvedad de que el valor de iX corresponde al punto medio

o marca de clase de cada intervalo. Enseguida se muestra su estimacin con el

mtodo de diferencias cuadrticas y su desarrollo mediante la expresin:

n

XXf

s

n

i

ii

1

2

5196.527)(

2

35

1

2

Xn

Xf

s

n

i

ii

En donde:


XX i Restar la media a cada uno de los puntajes (punto medio)


21 XXf i Multiplicar la frecuencia por cada una de las diferencias


n

i

ii XXf1

2 Sumar los productos de la frecuencia por cada una de

las diferencias elevadas al cuadrado

n

XXfn

i

ii

1

2

Dividir la suma de los productos de la frecuencia por

cada una de las diferencias elevadas al cuadrado, entre el nmero de

datos

n

XXfn

i

ii

1

2

Obtener la raz cuadrada de la divisin de los

productos de la frecuencia por cada una de las diferencias

elevadas al cuadrado, entre el nmero de datos

En la tabla 5.20, se despliegan los puntajes de depresin alcanzados en el

inventario de Beck por una muestra de 60 estudiantes universitarios, as como

las operaciones necesarias para la estimacin de la desviacin estndar con

datos agrupados, mediante el mtodo de diferencias cuadrticas.

1) Calculando la media se tiene que

60

13510

58.560

n

i i

i

f X

Xn

2) Restar la media X a cada punto medio

(14.5 58.5),(24.5 58.5), 34.5 58.5 ,...,(114.5 58.5)iX X

3) Elevar al cuadrado los valores obtenidos al restar la media a cada punto

medio )( iX

2 22 2 2( 44) ,( 34) , 24 ,..., (56)iX X

4) Multiplicar la frecuencia con que aparece cada uno de los datos, por cada

una de las diferencias elevadas al cuadrado

Tabla 5.20. Puntajes de depresin obtenidos por 60 estudiantes en el inventario

de Beck y desarrollo numrico para la estimacin de la desviacin estndar con

el mtodo de diferencias cuadrticas

Intervalos if PM

iX

iiXf XX i 2XX i 2

XXf ii

10-19 3 14.5 43.50 -44 1936 5808

20-29 4 24.5 98.00 -34 1156 4624

30-39 7 34.5 241.5 -24 576 4032

40-49 8 44.5 356.0 -14 196 1568

50-59 9 54.5 490.5 -4 16 144

60-69 10 64.5 645.0 6 36 360

70-79 7 74.5 521.5 16 256 1792

80-89 6 84.5 507.0 26 676 4056

90-99 3 94.5 283.5 36 1296 3888

100-109 2 104.5 209.0 46 2116 4232

110-119 1 114.5 114.5 56 3136 3136

60n

60

1

n

i i

i

f X

3510

60 2

1

n

i i

i i

f X X

33640

2

3(1936),4(1156),7(576),...,1(3136)i if X X



60 2

1

5808 4624 4032 ... 3136 33640n

i i

i

f X X

6) Dividir la suma de los productos, de la frecuencia por cada una de las

diferencias elevadas al cuadrado, entre el nmero de datos

60 2

133640

560.760

n

i i

i

f X X

n

7) Obtener la raz cuadrada de la divisin de los productos de la frecuencia

por cada una de las diferencias elevadas al cuadrado, entre el nmero de

datos

60 2

1 560.7 23.68 24

n

i i

i

f X X

sn

La desviacin estndar para estos datos es de 23.68 24s , esto es, los

puntajes de depresin varan 24 puntos con respecto a su media para la muestra

estudiada.

Para la estimacin de la desviacin estndar con puntuaciones originales, se

desarrolla la siguiente expresin:

21

2

Xn

Xf

s

n

i

ii

En donde:




iX Punto medio (PM) de cada intervalo

X Media


2)( ii Xf Multiplicacin de cada uno de los elementos del conjunto

elevados al cuadrado por su frecuencia

A fin de ejemplificar la estimacin de la desviacin estndar con este mtodo de

puntuaciones originales para datos agrupados, en la tabla 5.21 se muestran los

puntajes de depresin de 60 estudiantes en el inventario de Beck y los clculos

para su desarrollo.

Tabla 5.21. Puntajes de depresin de 60 estudiantes en el inventario de Beck

y desarrollo numrico para la estimacin de la desviacin estndar con el

mtodo de puntuaciones originales

iX

if

PM

iX

iiXf

2

iX

2)( ii Xf

10-19 3 14.5 43.50 210.3 630.8

20-29 4 24.5 98.00 600.3 2401

30-39 7 34.5 241.5 1190 8332

40-49 8 44.5 356.0 1980 15842

50-59 9 54.5 490.5 2970 26732

60-69 10 64.5 645.0 4160 41603

70-79 7 74.5 521.5 5550 38852

80-89 6 84.5 507.0 7140 42842

90-99 3 94.5 283.5 8930 26791

100-109 2 104.5 209.0 10920 21841

110-119 1 114.5 114.5 13110 13110

60n

60

1

n

i i

i

f X

3510

602

1

( )n

i i

i

f X

238975

Sustituyendo:

1) Elevar al cuadrado cada uno de los valores observados (punto medio)

2 2 2 2 2(14.5) ,(24.5) ,(34.5) ,...,(114.5)iX

2) Multiplicar la frecuencia de cada intervalo por el cuadrado de cada uno

de los valores observados

2( ) 3(210.3),4(600.3),7(1190)...,1(13110)i if X



602

1

( ) 630.8 2401 8332 ... 13110 238975n

i i

i

f X

4) Dividir la sumatoria, de los productos de las frecuencias por el cuadrado

de los valores observados, entre el nmero de datos observados

602

1

( )238975

398260

n

i i

i

f X

n


2 2( ) (58.5) 3422X

6) Restar a la divisin, de la sumatoria de los productos de las frecuencias



602

21

( )

( ) 3982 3422 560

n

i i

i

f X

Xn

7) Obtener la raz cuadrada

602

21

( )

560 23.66 24

n

i i

i

f X

s Xn

Como se puede apreciar con cualquiera de los dos mtodos, desviaciones

cuadrticas o puntuaciones originales, se obtiene el mismo resultado, una

desviacin estndar de 24 puntos en el inventario de depresin 24s .

La varianza

La varianza 2s , al igual que la desviacin estndar, es una medida a la que se

recurre con mucha frecuencia para la estimacin de la variabilidad o dispersin

de un conjunto de observaciones con respecto a su media. De la misma manera

que con la desviacin estndar, el desarrollo numrico para su obtencin, implica

la estimacin de la sumatoria de las diferencias cuadrticas de los puntajes con

respecto a la media 2

1

n

i

i

X X

. Sumatoria que se divide entre el total de

observaciones, lo que nos proporciona el valor de la varianza. Por lo que la

varianza se define como el promedio cuadrtico de dispersin y simblicamente

se representa como:

n

XX

s

n

i

i

1

2

2

En donde:

2s Smbolo de la varianza


2XX Elevar al cuadrado cada una de las diferencias

n

i

i XX1

2Sumar cada una de las diferencias elevadas al cuadrado

(suma cuadrtica o suma de cuadrados)

n

XXn

i

i

1

2

= Dividir la suma de cuadrados entre el nmero de datos

Ejemplo. En la tabla 5.22 aparece el nmero de cigarrillos, que reportan fumar

cinco personas al da, as como los clculos necesarios para la estimacin de la

varianza siguiendo los siguientes pasos: 1) calcular la media, 2) obtener la

diferencia de cada puntaje con respecto a la media, 3) elevar al cuadrado cada

una de las diferencias, 5) sumar cada una de las diferencias cuadrticas (suma

de cuadrados) y 6) dividir la suma de cuadrados entre el nmero de

observaciones.

Tabla 5.22. Nmero de cigarros fumados por

cinco personas en un da y los clculos

necesarios para la estimacin de la varianza

N de cigarros

iX

XX i

2XX i

2 -4 16

4 -2 4

6 0 0

8 2 4

10 4 16

305

1

n

i

iX

5n

5 2

1

40ii

X X

Sustituyendo los clculos:

1) 65

30

5

1

n

X

X

n

i

i

2) 4025

1

i

i XX

3)

8

5

40

5

1640416

5

1

2

2

n

XX

s

n

i

i

La varianza para estos datos es de 8 82 s , es decir, la dispersin o variabilidad

cuadrtica promedio, del nmero de cigarros fumados por cinco personas en un

da es de 8.

La varianza en distribuciones de frecuencia simple

La varianza en distribuciones de frecuencia simple mediante el mtodo de las

diferencias cuadrticas se obtiene al desarrollar la siguiente frmula:

n

XXf

s

n

i

ii

1

2

2

En donde:


XX i Restar (diferencia) la media a cada uno de los puntajes

2XX Elevar al cuadrado cada una de las diferencias

2XXf ii Multiplicar la frecuencia por cada una de las diferencias


n

i

ii XXf1

2Sumar el producto de la frecuencia por cada una de las

diferencias elevadas al cuadrado

n

XXfn

i

ii

1

2

= Dividir la suma del producto de la frecuencia por cada una

de las diferencias elevadas al cuadrado, entre el nmero de datos

Ejemplo. En la tabla 5.23 se presenta el nmero de pensamientos negativos en

un da que reportan tener un grupo de 26 personas, as como los clculos

necesarios para sustituir en la frmula de la varianza.

Como primer paso se obtiene la media:

69.1126

30426

1

n

i

ii

n

XfX

Una vez que se conoce la media se realizan los clculos como se muestra en la

tabla 5.23, para finalmente sustituir en la frmula.

Sustituyendo:

1) Restar la media a cada valor ( 69.11X )

(8 11.69),(9 11.69),(10 11.69),...,(14 11.69)X X


2

2 2 2 2( 3.69) ,( 2.69) ,( 1.69) ,..., (2.31)X X

3) Multiplicar por su frecuencia cada una de las diferencias al cuadrado

2( ) 1(13.62),1(7.236),3(2.856),...,3(5.336)i if X X



26 2

1

13.62 7.236 8.568 ... 16.01 55.54n

i i

i

f X X

5) Dividir la suma anterior entre el nmero de datos

262

12 1

( )55.54

2.14 226

n

i

i

f X X

sn

Tabla 5.23. Nmero de pensamientos negativos en un da en un

grupo de 26 personas y desarrollo numrico para la estimacin de

la varianza con el mtodo de diferencias cuadrticas

iX 1f iiXf XX i 2XX i 2

XXf ii

8 1 8 -3.69 13.62 13.62

9 1 9 -2.69 7.236 7.236

10 3 30 -1.69 2.856 8.568

11 5 55 -0.69 0.4761 2.381

12 9 108 0.31 0.0961 0.8649

13 4 52 1.31 1.716 6.864

14 3 42 2.31 5.336 16.01

26n

26

1

n

i

iiXf

304

26

1

2n

i

ii XXf

55.54

La varianza para el nmero de pensamientos negativos es de 2.14, es decir, el

promedio de variabilidad cuadrtica, redondeando es de 2.

Como en la desviacin estndar, es posible la estimacin de la varianza sin

calcular las desviaciones de las puntuaciones con respecto a la media, utilizando

el mtodo de puntuaciones originales, procedimiento que proporciona el mismo

resultado que el mtodo de desviaciones al cuadrado, su frmula es:

21

2

2 )(

)(

Xn

Xf

s

n

i

ii

En donde:





X Media


iiXf Multiplicacin de cada uno de los elementos del conjunto por su

frecuencia

En la tabla 5.24 aparecen los clculos a seguir para obtener la varianza mediante

este procedimiento de puntuaciones originales.

Tabla 5.24. Nmero de pensamientos negativos en un da en un grupo

de 26 personas y desarrollo numrico para la estimacin de la varianza

con el mtodo de puntuaciones originales

iX if iiXf 2

iX 2)( ii Xf

8 1 8 64 64

9 1 9 81 81

10 3 30 100 300

11 5 55 121 605

12 9 108 144 1296

13 4 52 169 676

14 3 42 196 588

26n

26

1

n

i

iiXf

304

3610)( 226

1

i

n

i

i Xf

Sustituyendo en la formula se tiene:

1) Elevar al cuadrado cada uno de los valores observados

2 2 2 2 2(8) ,(9) ,(10) ,...,(14)iX

2) Multiplicar la frecuencia de cada puntaje por el cuadrado de cada uno de

los valores observados

2( ) 1(64),1(81),3(100)...,3(196)i if X



262

1

( ) 64 81 300 ... 588 3610n

i i

i

f X

4) Dividir la sumatoria de los productos de las frecuencias por el cuadrado

de los valores observados entre el nmero de datos observados

262

1

( )3610

138.8526

n

i i

i

f X

n


69.1126

30426

1

n

i

ii

n

XfX

66.13669.11)( 22 X

6) Restar a la divisin de la sumatoria, de los productos de las frecuencias



262

2 21

( )

( ) 138.85 136.66 2.19 2

n

i i

i

f X

s Xn

La varianza es igual a 2 22 s , el mismo resultado obtenido con el mtodo de

diferencias cuadrticas.

Clculo de la varianza en distribuciones de frecuencia agrupada

Para la estimacin de la varianza en distribuciones de frecuencia agrupada, se

utiliza el mismo desarrollo numrico que para distribuciones de frecuencia

simple, tanto por el mtodo diferencias cuadrticas o el de puntuaciones

originales, con la nica diferencia de que el valor de iX corresponde al punto

medio o marca de clase de cada intervalo.

Para mostrar el clculo de la varianza utilizando el mtodo de diferencias

cuadrticas, considrese el nmero de pensamientos negativos agrupados en

intervalos, de un grupo de 48 personas (ver tabla 5.25).

Tabla 5.25. Nmero de pensamientos negativos en un da en un grupo de 48

personas; y desarrollo numrico para la estimacin de la varianza con el

mtodo de desviaciones cuadrticas

iX

PM

iX

1f

iiXf

2XX i

2XX i

2XXf ii

8-12 10 4 40 -16.67 277.8 1111

13-17 15 5 75 -11.67 136.1 680.6

18-22 20 6 120 -6.67 44.44 266.7

23-27 25 8 200 -1.67 2.778 22.22

28-32 30 12 360 3.33 11.11 133.3

33-37 35 7 245 8.33 69.44 486.1

38-42 40 6 240 13.33 177.8 1067

48n

48

1

n

i

iiXf

1280

248

1

n

i

ii XXf

3767

Estimacin de la media:

67.2648

1280

48

1

n

Xf

X

n

i

ii

Una vez que se conoce la media se desarrolla la frmula de la varianza con el

mtodo de las desviaciones cuadrticas:

n

XXf

s

n

i

ii

1

2

2

En la tabla 5.25 aparece paso a paso el desarrollo de las operaciones requeridas.

Sustituyendo se tiene:

1) Restar la media a cada valor ( 67.26X )

(10 26.67),(15 26.67),(20 26.67),...,(40 26.67)iX X


2

2 2 2 2( 16.67) ,( 11.67) ,( 6.67) ,..., (13.33)iX X

3) Multiplicar por su frecuencia cada una de las diferencias al cuadrado

2

4(277.8),5(136.1),6(44.44),...,6(177.8)ifi X X



48 2

1

1111 680.6 266.7 ... 1067 3767n

i i

i

f X X

5) Dividir la suma anterior entre el nmero de datos

48 2

2 13767

78.46 7848

n

i i

i

f X X

sn

Esto es, el promedio de variabilidad cuadrtica de los pensamientos negativos

en un da que reportan los 48 participantes es de 78 782 s

Ahora bien, para la estimacin de la varianza mediante el procedimiento de

puntuaciones originales se desarrolla la expresin:

21

2

2 )(

)(

Xn

Xf

s

n

i

ii

En la tabla 5.26 se desglosa el desarrollo numrico que se debe seguir para

estimar la varianza con este mtodo.

Tabla 5.26. Nmero de pensamientos negativos en un da en un

grupo de 48 personas y desarrollo numrico para la estimacin de

la varianza con el mtodo de puntuaciones originales

iX if PM

iX

iiXf 2

iX 2)( ii Xf

8-12 4 10 40 100 400

13-17 5 15 75 225 1125

18-22 6 20 120 400 2400

23-27 8 25 200 625 5000

28-32 12 30 360 900 10800

33-37 7 35 245 1225 8575

38-42 6 40 240 1600 9600

48n

48

1

n

i

iiXf

1280

248

1

)( i

n

i

i Xf

37900

Sustituyendo se tiene:

1) Elevar al cuadrado cada uno de los valores observados (punto medio)

2 2 2 2 2(10) ,(15) ,(20) ,...,(40)iX

2) Multiplicar la frecuencia de cada intervalo por el cuadrado de cada uno

de los valores observados

2( ) 4(100),5(225),6(400)...,6(1600)i if X



482

1

( ) 400 1125 2400 ... 9600 37900n

i i

i

f X

4) Dividir la sumatoria de los productos, de las frecuencias por el cuadrado

de los valores observados, entre el nmero de datos observados

482

1

( )37900

789.648

n

i i

i

f X

n


67.2648

1280

48

1

n

Xf

X

n

i

ii

3.71167.26)( 22 X

6) Restar a la divisin de la sumatoria de los productos de las frecuencias



482

2 21

( )

( ) 789.6 711.3 78.30 78

n

i i

i

f X

s Xn

El valor obtenido para la varianza con el mtodo de puntuaciones originales es

el mismo que con el mtodo de desviaciones cuadrticas 782 s

La varianza como se seal al inicio del apartado es una de las medidas de

dispersin ms utilizadas, sin embargo, su interpretacin se complica al estar

expresada en unidades cuadrticas, por lo que se requiere, hacer una

transformacin, que permita la expresin de la dispersin en las unidades

originales en que se midieron las caractersticas de las variables en estudio. En

dos de los ejemplos aqu desarrollados para la estimacin de la varianza, el

nmero de cigarrillos fumados y el nmero de pensamiento negativos,

constituyen las unidades de medicin originales.

La transformacin de las unidades cuadrticas proporcionadas por la varianza a

unidades originales, se consigue obteniendo la raz cuadrada positiva de la

varianza 2s , lo que conduce a la obtencin de la desviacin estndar, tal y como se puede apreciar en la siguiente expresin:

n

XX

ss

n

i

i

1

2

2

La facilidad de la interpretacin de la desviacin estndar al expresar la

dispersin en las unidades originales de medicin, explica el por qu es ms

comn su eleccin para la evaluacin de la dispersin que la varianza. Es

conveniente resaltar que la varianza y la desviacin estndar, son medidas

estrechamente relacionadas y que al obtener cualquiera de ellas, fcilmente se

consigue la otra mediante su respectiva transformacin. De tal manera que si se

conoce la desviacin estndar s , al elevarla al cuadrado se tiene la estimacin

de la varianza 2s y, si se calcula la varianza primero, la desviacin estndar se

obtiene mediante la raz cuadrada positiva de las varianza 2s .

Coeficiente de variabilidad

El coeficiente de variabilidad es un ndice que estima la dispersin de un conjunto

de observaciones en trminos relativos, mediante la transformacin de la

desviacin estndar en un porcentaje de variacin. Dicha transformacin en

porcentaje facilita la interpretacin y comunicacin de la variabilidad, as como la

comparacin entre variables expresadas en unidades de medicin diferentes.

El coeficiente de variabilidad (CV) se obtiene al dividir la desviacin estndar s

de un conjunto de observaciones entre el valor de su media ( X ), resultado que

se multiplica por 100, lo que se expresa con la siguiente notacin:

100X

sCV

Para ejemplificar la obtencin del coeficiente de variabilidad, se retoma el

ejemplo de los puntajes de depresin obtenidos por ocho estudiantes en el

inventario de Beck (ver Tabla 17), en el cual se obtuvo una media de 51 ( 51X

) y una desviacin estndar de 7 puntos 7s , sustituyendo estos valores se

tiene:

%14%7.13)100(137.010051

7100

X

sCV

Esto significa que las puntuaciones de los ocho estudiantes en el Inventario de

Beck, en promedio presentan una variabilidad del 14%.

Retomando dos ejemplos de los puntajes de depresin obtenidos por

estudiantes universitarios, desarrollados para la estimacin de la desviacin

estndar tanto con una distribucin de frecuencia simple (ver tabla 5.18) como

con una distribucin de frecuencia agrupada (ver tabla 5.20), en la tabla 5.27 se

muestran sus respectivas medias, desviaciones estndar y coeficientes de

variabilidad.

Tabla 5.27. Coeficiente de variabilidad de dos grupos

n X )(s )100(

X

s

CV

35 50.14 5 )100(

14.50

5 %1097.9

60 58.5 24 24(100)

58.5

41.03 41%

De acuerdo a los valores obtenidos en los coeficientes de variabilidad, se tiene

que para el caso del grupo de 35 estudiantes, el promedio de variacin o

dispersin de los puntajes de depresin con respecto a la media es del 10%.

Para el caso de la muestra de 60 estudiantes, el promedio de dispersin es del

41%. Es claro que la muestra de 35 estudiantes tiene una variabilidad menor

%10CV que la muestra de 60 estudiantes 41%CV .

Hasta aqu, se ha resaltado la estimacin de los ndices de medida central y

dispersin, as como su utilidad para describir las propiedades de un conjunto de

observaciones, a travs de las cuales se estudia el comportamiento de las

variables de inters. En el siguiente apartado se ilustra la utilidad de estas

medidas como ndices comparativos.

Medidas de tendencia central y dispersin como ndices

comparativos

Este apartado tiene un doble propsito, por una parte repasar la obtencin de los

ndices antes expuestos, as como mostrar su aplicacin e interpretacin al ser

utilizados para comparar dos o ms grupos de observaciones.

Con frecuencia se intenta dar respuesta a preguntas tales como Las mujeres

obtienen mayores puntajes de depresin que los hombres?, El nmero de

cigarrillos que consume un grupo de estudiantes fumadores en perodo de

exmenes y entrega de trabajos es mayor del que habitualmente consumen?,

Los estudiantes que tienen el hbito de la lectura cuentan con una mejor

ortografa que los estudiantes que no tienen el hbito de leer?, Hay diferencias

en el rendimiento acadmico entre alumnos que nicamente se dedican a

estudiar y los que adems de estudiar trabajan?

Ntese que la respuesta a estas interrogantes implica necesariamente una

comparacin entre grupos. Una forma de hacer dicha comparacin, es mediante

la utilizacin de los diferentes ndices de tendencia central y dispersin;

especficamente, la media es el ndice ms utilizado para llevar a cabo estas

comparaciones, siempre y cuando las variables de estudio sean variables

numricas.

A continuacin se presenta un ejemplo, que nos permitirn comparar dos grupos

empleando los ndices de tendencia central y dispersin.

Ejemplo. Promedio de calificacin de dos grupos de estudiantes que cursan la

carrera de Psicologa, un grupo de estudiantes nicamente estudian y otro grupo

de alumnos que adems de estudiar trabajan (Tabla 5.28).

Grupo 1. Estimacin de los ndices descriptivos de los promedios de calificacin

de los alumnos que nicamente se dedican a estudiar. En la tabla 5.29, se

presentan los clculos necesarios para la estimacin de las medidas de

tendencia central y dispersin.

De acuerdo a los promedios de calificacin para el grupo de estudiantes que

nicamente se dedican a estudiar (ver tabla 5.29), el valor que se presenta con

Tabla 5.28. Promedio de calificacin de dos grupos de

estudiantes que cursan la carrera de Psicologa

Grupo 1 Alumnos que

nicamente estudian

Grupo 2 Alumnos que

estudian y trabajan

iX if iX if

6 3 6 3

7 7 7 8

8 9 8 13

9 11 9 9

10 5 10 2

35n 35n

Tabla 5.29. Grupo 1. Desarrollo numrico para la estimacin

de los ndices de tendencia central y dispersin de los

promedios de calificacin de los alumnos que nicamente

estudian.

iX if fa iiXf 2

iX 2)( ii Xf

6 3 3 18 36 108

7 7 10 49 49 343

8 9 19 72 64 576

9 11 30 99 81 891

10 5 35 50 100 500

35n

35

1

n

i

iiXf

288

235

1

)( i

n

i

i Xf

2418

Mo

Mdn

mayor frecuencia 11f es la calificacin de 9, siendo ste el valor modal

9Mo .

La calificacin que divide en dos partes iguales a los promedios de los 35

estudiantes, ocupa la posicin 18

18

2

36

2

135

2

1n, posicin que se

encuentra contenida en la frecuencia acumulada igual a 19 19fa , por lo que

el promedio de calificacin con la posicin 18 corresponde al valor 8, esto es, la

mediana es la calificacin de 8 8Mdn .

La media de los promedios de calificacin del grupo de alumnos que slo se

dedican a estudiar es de 8.23 23.8X , valor que se obtiene al desarrollar la

frmula de la media:

35

1288

8.2335

i i

i

f X

Xn

En cuanto a las medidas de dispersin, al restar a la puntuacin ms alta la

puntuacin ms baja, se obtiene un rango igual a 4 4610 PbPa . La

desviacin estndar estimada a travs del mtodo de puntuaciones originales es

igual a 1.17 17.1s . Valor que se obtiene al sustituir en la formula, la sumatoria

de los productos de los cuadrados de iX por su respectiva frecuencia (ver tabla

5.29).

352

221

( )2418 2418

(8.23) (67.73)35 35

i i

i

f X

s Xn

(69.09) (67.73) 1.36 1.166 1.17

Para obtener la varianza se sustituye 2418)( 235

1

i

n

i

i Xf , en la frmula:

352

2 2 21

( )2418 2418

( ) (8.23) 67.73 69.09 67.73 1.3635 35

i i

i

f X

s Xn

Por lo que la varianza es igual a 1.36 2 1.36s , valor que tambin es posible

conseguir al elevar al cuadrado la desviacin estndar, tal y como se seal al

final del apartado de la varianza:

Si 1.166s , al elevar al cuadrado 2

1.166 , se obtiene 1.36 :

2 2

1.166 1.36s

El Coeficiente de Variabilidad es igual a 14.17% 14.17%CV :

1.166

100 100 0.1417(100) 14.178.23

sCV

X

Grupo 2. Estimacin los ndices descriptivos de los promedios de calificacin de

los alumnos que estudian y trabajan. El desarrollo numrico para el clculo de

las medidas de tendencia central y dispersin se muestra en la tabla 5.30.

Tabla 5.30. Grupo 2. Desarrollo numrico para la estimacin de los ndices de

tendencia central y dispersin del promedio de calificacin de estudiantes que

estudian y trabajan

iX if fa iiXf 2

iX 2)( ii Xf

6 3 3 18 36 108

7 8 11 56 49 392

8 13 24 104 64 832

9 9 33 81 81 729

10 2 35 20 100 200

35n

35

1

n

i

iiXf 279

235

1

)( i

n

i

i Xf 2261

Mo y Mdn

Considerando los datos de la tabla 30, la calificacin que se presenta con mayor

frecuencia en el grupo de los 35 alumnos que adems de estudiar trabajan es 8,

siendo este el valor modal 8Mo . En cuanto a la calificacin que divide en dos

partes iguales los promedios de estos estudiantes, ocupa la posicin 18

18

2

36

2

135

2

1n, valor que corresponde al promedio de 8, por lo tanto 8

es el valor de la mediana ( 8)Mdn . Al sustituir 27935

1

n

i

iiXf en la frmula de la

media como se muestra enseguida, se encuentra que sta es igual a 7.97

97.7X .

35

1279

7.9735

i i

i

f X

Xn

Para las medidas de dispersin, se tiene que el rango es igual a 4

4610 PbPa . Sustituyendo 2261)( 235

1

i

n

i

i Xf en la frmula de la

desviacin estndar por el mtodo de puntuaciones originales, se obtiene un

promedio de dispersin de 1.04 1.04s :

352

221

( )2261 2261

(7.97) (63.52)35 35

i i

i

f X

s Xn

(64.6) (63.52) 1.08 1.04

Para el clculo de la varianza, se sustituye 2261)( 235

1

i

n

i

i Xf en:

352

2 2 21

( )2261 2261

( ) (7.97) 7.97 64.6 63.52 1.0835 35

i i

i

f X

s Xn

La varianza de acuerdo al desarrollo de la frmula es de 1.06 06.12 s . Otra

manera de obtenerla es elevar al cuadrado la desviacin estndar, tal y como se

realiz con el grupo 1:

1.04s , al elevar al cuadrado 2

1.04 , se obtiene 1.08: 2 2

1.04 1.08s

La variabilidad en trminos relativos es de 13.05% 13.05%CV :

1.04

100 100 0.1305(100) 13.057.97

sCV

X

Una vez calculados los ndices de tendencia central y dispersin para ambos

grupos los resultados se presentan en la tabla 5.31, con base a ella se puede

decir que en el Grupo 1 9Mo hay mayor nmero de alumnos que tienen un

promedio de 9 que en el Grupo 2 8Mo ; en ambos grupos, el 50% de los

estudiantes obtienen una calificacin igual o mayor a 8 ( 8)Mdn ; el promedio

de calificacin es ms alto para el grupo de estudiantes que nicamente estudian

8.23X (ver figura 5.16); comparten el mismo rango de variacin 4R , su

dispersin tanto en desviacin estndar como en la varianza es mayor para el

Grupo 1, y esto se puede apreciar claramente al observar los valores del

coeficiente de variacin, que muestran que el porcentaje de variacin

.%14CV es mayor para los estudiantes que no trabajan comparndolos con

los alumnos que estudian y adems trabajan %13CV .

Con base a lo anterior y recordando que se realiz un anlisis descriptivo, se

podra decir que aun cuando el grupo 1 tiene un promedio de calificacin ms

alto, la diferencia con respecto al promedio de calificacin del grupo 2, es muy

pequea.

Tabla 5.31. Medidas descriptivas del promedio de calificacin

del Grupo 1 y Grupo 2

Mo Mdn X R s 2s CV *

Grupo 1 9 8 8.23 4 1.17 1.36 14%

Grupo 2 8 8 7.97 4 1.04 1.08 13%

*Los valores se presentan redondeados

Figura 5.16. Promedio de calificacin del grupo de alumnos que slo estudian y del grupo que estudia y trabaja.

Otros ndices descriptivos utilizados en algunas situaciones son las medidas de

posicin y las de forma. ndices que se presentan de manera general en los

siguientes apartados.

Medidas de posicin

Los ndices o medidas de posicin permiten identificar el lugar o nivel en que se

encuentra una o varias puntuaciones en referencia a un conjunto o grupo de

observaciones. Por ejemplo, cuando un profesor afirma que uno de sus

estudiantes alcanz una calificacin en matemticas ms alta que el 75% del

grupo, est utilizando un ndice de posicin. As tambin, mediante la obtencin

de estas medidas, el profesor puede determinar que entre el 50% y 75% de sus

alumnos tienen una calificacin de 7.0 a 8.5, o bien sealar que slo el 10%

obtuvo una calificacin menor a 7. 0.

Los ndices de posicin ms conocidos son los cuartiles, deciles y percentiles (la

mediana tambin es un ndice de posicin). Para estimar estos ndices siempre

se debe considerar al conjunto de datos como el 100%, de tal forma que con los

cuartiles Q se divide el conjunto de datos en cuatro partes iguales, en los

0

2

4

6

8

10

12

14

5 6 7 8 9 10

f

Calificacin

Grupo 1

Grupo 2

deciles D en diez y en los percentiles P en cien. A cada una de las partes se

le denomina cuartil, decil y centil, respectivamente.

0D 5D 10D

Deciles 1D 2D 3D 4D 6D 7D 8D 9D

0Q

4Q

Cuartiiles 1Q 2Q 3Q

La obtencin de estas medidas se consigue desarrollando la expresin siguiente:

cf

fai

nk

LiZi

*

En donde:

Z Medida de posicin a estimar, por lo que si se calculan percentiles en

el lugar de Z , se debe cambiar por P si son percentiles, si son deciles

porD y si son cuartiles por Q .

Li Lmite inferior real del intervalo de clase que contiene la particin a

estimar

k Nmero de particin a computar (decil, 1, 2, 3, ..10; cuartil 1. 2, 3,

4, percentil, 10, 24, 33, 56, 80, 100)

* Multiplicar

i Partes en las que se dividir el conjunto de datos (4, 10 100)

n Nmero de observaciones

fa Frecuencia acumulada anterior al valor que contiene la particin de

inters

0P

50P

100P

Percentiles 10P 20P 30P 40P

60P 70P 80P 90P

if Frecuencia del intervalo de clase que comprende la particin

c Amplitud del intervalo de clase

Puesto que la estimacin numrica de las medidas de posicin sigue la misma

lgica, nicamente se ejemplifica el desarrollo e interpretacin de los cuartiles.

Ejemplo. Nmero de aciertos de 130 aspirantes en un examen de ingreso a una

universidad. El examen consta de 120 reactivos, con una puntuacin mnima de

0 y mxima de 120 (ver tabla 5.32).

Tabla 5.32. Nmero de aciertos en

un examen de ingreso a una

universidad

Intervalo de clase if

21 35 20

36 50 25

51 - 65 45

66- 80 15

81- 95 15

96- 110 10

130n

Como los ndices de inters son los cuartiles, la expresin para su estimacin

queda como:

cf

fai

nk

LiQi

i

*

En donde:

iQ Cuartil a calcular

iL Lmite inferior real del intervalo de clase que contiene la particin del

cuartil a estimar 1 2 3 425%, 50%, 75%, 100%Q Q Q Q

k Nmero de cuartil a computar (1, 2, 3, 4)

i Las 4 partes en las que se dividir el conjunto de datos

n Nmero de observaciones

fa Frecuencia acumulada anterior al intervalo que contiene el cuartil de

inters

if Frecuencia del intervalo de clase que comprende el cuartil a conocer

c Amplitud del intervalo de clase

Para conocer el lmite inferior real del intervalo de clase que contiene la particin

del cuartil a estimar, se calcula el porcentaje, posteriormente se obtiene el

porcentaje acumulado, y se localiza en ste el intervalo de clase que contenga,

el 25% de los casos 1Q , el 50% 2Q , y el 75% 3Q .

Con los aciertos obtenidos por los 130 aspirantes a la universidad, en la tabla

5.33, y de acuerdo con la columna de porcentaje acumulado se tiene que:

El 25% de los casos se encuentra en el intervalo 36-50



Tabla 5.33. Nmero de aciertos en el examen de ingreso

Intervalo de

clase

if

fa

%

%acumulado

21 35 20 20 15.4 15.4

36 50 25 45 19.2 34.6 1 43Q

51- 65 45 90 34.6 69.2 2 57Q

66- 80 15 105 11.5 80.8 3 73Q

81- 95 15 120 11.5 92.3

96- 110 10 130 7.7 100.0

130n

Con los datos presentados en la tabla 33 se puede desarrollar la frmula para

estimar el cuartil 1 1Q :

cf

fai

nk

LiQi

*

1

En donde:

5.35iL Lmite inferior real del intervalo que contiene el 25% de los casos

1k Nmero de cuartil a estimar 1Q

4i Las cuatro partes en que se dividir el conjunto de observaciones

130n Total de observaciones

20fa Frecuencia acumulada anterior al intervalo que contiene el 25% de

los casos

25if Frecuencia del intervalo que contiene el 25% de los casos

15c Amplitud del intervalo de clase

Sustituyendo en la frmula:

1525

205.325.3515

25

204

130

5.351525

204

130*1

5.351Q

435.75.35155.05.351525

5.125.35 431 Q

Para obtener el cuartil 2 2Q , se siguen los mismos pasos que con 1Q .

Identificados cada uno de los elementos necesarios para el desarrollo de la

frmula, se tiene:

1545

45655.5015

45

454

260

5.501545

454

130*2

5.502Q

5716.5766.65.501544.05.501545

205.50 2 57Q

Como era de esperarse el valor del cuartil dos 572 Q corresponde al valor de

la mediana 57Mdn , estimado en la seccin correspondiente a la mediana

para distribuciones de frecuencia agrupada.

La estimacin del cuartil 3 3Q , se obtiene al desarrollar:

1515

905.975.6515

15

904

390

5.651515

904

130*3

5.653Q

735.75.65155.05.651515

5.75.65 733 Q

Una vez calculados los cuartiles podemos afirmar que el 25% de los aspirantes

a la universidad, alcanzan una puntuacin menor a 43 aciertos; el 50% una

puntuacin menor a 57 y finalmente, el 75 % obtienen una puntuacin menor a

73. Dicho de otra forma, el 25% logra puntuaciones mayores a 73 3Q aciertos,

el 50% entre 43 1Q y 73 3Q puntos y el 25% restante, consigue menos de 43

1Q aciertos (ver figura 5.17).

Figura 5.17. Presentacin de los cuartiles en el nmero de aciertos en un examen de ingreso a la universidad.

0

10

20

30

40

50

28 43 58 73 88 103

f

Aciertos

Q1

Q2

Q3

Medidas de forma: asimetra y curtosis

La asimetra y la curtosis son medidas que ayudan a describir la forma de una

distribucin. La asimetra permite analizar hasta que punto los datos se reparten

de forma equilibrada alrededor de la media, mientras que la curtosis hace

referencia al nivel de apuntamiento o aplanamiento de una distribucin.

Distribucin simtrica

Se dice que una distribucin es simtrica cuando los datos se reparten de forma

equilibrada por abajo y encima de la media, en este caso la media coincide con

la moda (ver figura 5.18).

indices descriptivos y n=1

Documents